﻿•INSTITUTUL FIZIC ȘI TEHNIC MOSCOVA (UNIVERSITATEA NAȚIONALĂ DE CERCETARE)* S A Shumsky INTELIGENTA MASINILOR ESEURI PRIVIND TEORIA ÎNVĂŢĂRII MAŞINI ŞI INTELIGENTEI ARTIFICIALE RIORul Moscovei UDC ( ) - ( ) ediția f nu este supusă marcajului BBK ya - ya Nr -FZ în conformitate cu clauza , partea , art Sh Copertă de N S Shumskaya Autor: Shumsky S A - Cand Fiz -Matematică Sci , Director al Consiliului Științific și Coordonator al Centrului pentru Inițiativa Tehnologică Națională privind Tehnologia End-to-End "Inteligenta Artificială" cu sediul la MIPT, Șef al Laboratorului de Arhitecturi Cognitive la MIPT, Președinte al Asociației Ruse de Neuroinformatică , Șef al direcției "Neuroasistenți" a foii de parcurs Neuronet a Inițiativei Tehnologice Naționale Autor a peste de publicații științifice, inclusiv manuale despre neurocomputing Referent: Jilyakova L Yu - Dr fiz -matematică Sci , cercetător principal, Institutul pentru Probleme de Control al Academiei Ruse de Științe (Moscova) Shumsky S A Ш Inteligența mașinii Eseuri despre teoria învățării automate și inteligența artificială / S A Shumsky - M : RIOR, - p - DOI: https://doi org/ / -l ISBN - - - - ISBN - - - - (online) Cartea oferă o imagine de ansamblu asupra stării actuale și a perspectivelor de dezvoltare a cercetării privind inteligența mașinilor Se propune o abordare a creării unei inteligențe artificiale "puternice" folosind principiile creierului uman Fiecare capitol este un eseu independent care pune și rezolvă probleme de actualitate ale vremurilor noastre: Ce sarcini trebuie rezolvate pe calea îmbunătățirii învățării automate? Cum poate contribui inteligența mașinilor la dezvoltarea tehnologică a societății în general și a antreprenoriatului privat în special? La ce se poate aștepta de la inteligența mașinilor în următorii - ani? Se adresează studenților, cercetătorilor și dezvoltatorilor de aplicații în domeniul inteligenței artificiale, precum și oricărei persoane interesate de principiile creierului din punctul de vedere al teoriei învățării automate UDC ( ) - ( ) BBK ya + ya Toate drepturile rezervate Este interzisă copierea, distribuirea sau orice altă utilizare a informațiilor fără acordul prealabil al deținătorului drepturilor de autor (cu excepția citarilor legale) ISBN - - - - ISBN - - - - (online) (c) Shumsky S A (c) Centrul de informare RIOR Cuprins Capitolul Prolog Ce și pentru cine este această carte Despre ce este vorba în această carte Pentru cine este această carte De ce este important Structura cărții Mulțumiri Capitolul Inteligența mașinilor în lumea modernă Inteligența mașinii: este timpul? Depășirea barierei de dificultate Noua paradigmă tehnologică Noua resursa abundenta si ieftina Pachet de noi tehnologii Noua organizare a pieței Cursa pentru inteligența artificială Apelarea Rusiei Capitolul Fundamentele învățării automate Concepte de bază Învățarea automată ca știință Minte, intelect și conștiință Învățare automată: Modele Complexitatea optimă a modelului Interpretarea bayesiană a învățării CUPRINS Ansambluri de ipoteze Algoritmul EM Învățare supravegheată: recunoașterea modelelor Neuron-clasificator Perceptroni multistrat Învățare în gradient Regularizarea instruirii Gradient de complexitate a învățării Învățare nesupravegheată: comprimarea informațiilor Rezumarea datelor Neuron-indicator al lui Hebb Analiza componentelor principale Componente principale neliniare Competiția neuronilor Hărți de auto-organizare Învățare prin întărire: Comportament Învățare fără simulare a mediului Învățare cu mediu simulat Relația cu teoria controlului Discuție Capitolul Învățare profundă Revoluția învățării profunde Condiții preliminare pentru o revoluție Esența învățării profunde Tehnici de învățare profundă Reţele extrem de rare Hardware de învățare profundă Rețele profunde recurente: vorbire și limbaj Rețele convoluționale: Viziune și dincolo Transformator: rapid și de înaltă calitate Combinaţii şi sinteza modalităţilor Reţele relaţionale: înţelegerea relaţiilor Generarea de rețele: imaginație Învățare prin întărire: Comportament CUPRINS Vector de dezvoltare: psihicul artificial Capitolul Arhitectura computațională a creierului Inginerie inversă a creierului Principalele subsisteme ale creierului Cortex: memorie asociativă Structura stratificată a cortexului: predictivă codificare Structura celulară a cortexului: discretă codificare rară Scoarța antică: memorie episodică Talamus: atenția și conexiunea senzațiilor Ganglionii bazali: Luarea deciziilor Managementul atenţiei Predarea valorilor Controlul activităţii în cortex Cerebel: consolidarea trecutului Circuitul creierului: Control profund Deep Control - invenţia primatelor Gândire abstractă: modelare Arhitectură veche nouă Capitolul Spre un psihic artificial De ce avem nevoie de un psihic artificial? Mașina Feynman Gândirea simbolică: ideea principală Conjectura despre modulele recursive ale cortexului Învățare structurală Ideea principală a metodei Algoritmul de învățare structurat Predictii cu Modelul Învățare prin întărire Codificare rară Învățare structurală profundă Codificare semantică Ierarhia structurilor CUPRINS Învățare activă Complexitatea învățării structurale Ierarhia Predicţiilor Discuție Capitol? Creierul și limbajul Vor putea mașinile să vorbească? Proprietăţile generice ale limbajului Învăţarea profundă a limbilor structurale Morfologie Sintaxă și semantică Analiza propunerilor Semnificațiile sintagmelor și propozițiilor Căutare semantică Rata de învățare Cum codifică creierul limbajul Modelul "organului limbii" Cum este reprezentat limbajul în creier Discuție Capitolul Direcții de dezvoltare Modelul de lucru al creierului Cum funcționează creierul nostru? Prelungirea vieţii creierului Modele de creier de lucru Tratamentul și modernizarea creierului Sistemul de operare al roboţilor Cum să faci roboții accesibili? Cine va fi următorul Microsoft? Pregătire modulară ierarhică Scheme salariale pentru roboți Expert Intelligence Cum se accelerează cercetarea și dezvoltarea? Superinteligența supercalculatoarelor Modelul ierarhic al limbajului Cynep-Google - Consultant CUPRINS Discuție Capitolul Viitorul inteligenței mașinilor Dezvoltarea bazei elementului Agenţi inteligenţi Roboţi Oameni O nouă revoluţie ştiinţifică Capitolul Evoluția minții Termodinamica de neechilibru Viaţa ca formă a minţii Creierul ca controlor al comportamentului Mintea umană Inteligența mașinii Capitolul Referințe Capitolul Prolog Cărări noi merg, vorbă nouă vine la mine; M-am săturat, ca toți creatorii, de vechile limbi Spiritul meu nu mai vrea să rătăcească pe tălpi călcate Temerarii din jurul meu! Căutători, testeri și cei dintre voi care navigați sub pânze perfide pe mări neexplorate! Voi iubitori de mistere! Rezolva-mi ghicitoarea pe care am vazut-o cine este el, cine ar trebui sa vina intr-o zi? Friedrich Nietzsche "Așa a vorbit Zarathustra" PROLOG Despre ce este această carte și pentru cine este? Despre ce este această carte Această carte este despre natura minții și comportamentul inteligent În special, și în special - despre inteligența umană și a mașinilor Vom folosi același limbaj al teoriei învățării automate pentru a înțelege principiile creierului și pentru a proiecta sisteme de inteligență artificială și, în viitor, o inteligență puternică a mașinilor Autorul își vede scopul în a construi punți între neurofiziologii care studiază creierul și inginerii de proiectare a sistemelor cognitive neuromorfe folosind principiile creierului Pentru cine este această carte? Această carte este un fel de manifest, un apel de a participa la începutul unei noi revoluții științifice A fost scris pentru cei care sunt concentrați pe noi descoperiri în domeniul inteligenței artificiale Pentru cei care sunt interesați de arhitectura creierului uman și de construirea unei inteligențe artificiale puternice, cu un ochi pe inteligența naturală Pentru arhitecții și designerii generali ai psihicului artificial al roboților - sisteme de operare inteligente ale următoarelor generații Știința și afacerile de astăzi sunt făcute de echipe, iar succesul muncii în echipă depinde în mare măsură de gradul de înțelegere reciprocă a oamenilor cu medii foarte diferite Noile evoluții în domeniul inteligenței artificiale atrag atât matematicieni și ingineri, cât și neurofiziologi, psihologi și lingviști Această carte este încercarea umilă a autoarei de a le oferi un fel de Piatră Rosetta, un text care este la fel de înțeles de ambii Pentru a permite biologilor să privească faptele pe care le cunosc prin ochii învățării automate, iar specialiștilor în inteligență artificială să privească domeniul lor prin ochii biologilor Despre ce este această carte și pentru cine este? unsprezece Deoarece sarcinile creierului sunt în mare măsură reduse la învățare, designul său nu poate fi înțeles fără a ține cont de aceste sarcini, de exemplu fără a implica ideile de învățare automată Acestea din urmă ajută la înțelegerea principiilor generale ale creierului, oferind un cadru pentru o cantitate imensă de fapte empirice despre creier și comportament Pe de altă parte, pentru a crea sisteme cognitive pentru roboți, este important să înțelegem arhitectura creierului și funcționarea acestuia la nivel de sistem, fără detalii biologice Se știe că Piatra Rosetta conține același text în trei limbi Această carte se adresează, de asemenea, nu numai cercetătorilor și dezvoltatorilor, ci și antreprenorilor, inițiatorilor și organizatorilor de noi proiecte în industria de capital de risc inerent a inteligenței mașinilor Aceștia vor fi interesați de capitole despre perspectivele dezvoltării inteligenței artificiale și locul acesteia în viitoarea economie digitală Pe lângă publicul țintă descris mai sus, cartea poate fi utilă oricărei persoane interesate de natura minții, atât naturală, cât și artificială Nivelul de prezentare corespunde aproximativ cu cursurile de juniori ale universităților, adică materialul în ansamblu este destul de accesibil publicului larg, în special capitolele inițiale jurnalistice și finale de știință populară Capitolele care sunt mai greu de înțeles și necesită anumite cunoștințe matematice și efort sunt prevăzute cu avertismente adecvate Este recomandat să le săriți peste ele la prima lectură pentru a nu "doborî respirația" De ce este important În ultimul deceniu, în domeniul inteligenței artificiale a avut loc revoluția deep learning, care a schimbat fundamental locul inteligenței mașinilor pe harta tehnologică a lumii Un număr mare de probleme practic importante care nu au fost rezolvate de zeci de ani - recunoașterea vorbirii, viziunea automată, traducerea automată - au fost PROLOG rezolvată prin învăţarea aşa-zisului rețele neuronale artificiale profunde (cu miliarde de parametri de reglare) Inteligența artificială bazată pe învățarea automată s-a mutat din laborator și în lumea reală de-a lungul anilor Agenții inteligenți s-au instalat pe smartphone-uri, iar mașinile au învățat să conducă fără șoferi Roboții evoluează într-un ritm rapid Finanțarea și numărul de specialiști în domeniul învățării automate a crescut dramatic și continuă să crească, fluxul de publicații este în creștere În mijlocul acestei revoluții științifice, orice trecere în revistă a realizărilor sale concrete are timp să devină învechită în procesul de pregătire, înainte de a se naște De aceea, în această carte dorim să ne concentrăm nu pe starea actuală, ci pe etapele următoare în dezvoltarea industriei Despre probleme care vor fi relevante pentru ceva mai mult, eventual pentru o lungă perioadă de timp, - despre probleme nerezolvate și posibile abordări ale soluționării lor Principala problemă nerezolvată astăzi este crearea unei inteligențe artificiale puternice de nivel (super) uman, capabilă să gândească, să se dezvolte, să comunice în mod independent cu oamenii în limbaj natural și, prin urmare, să extindă radical capacitățile omenirii De fapt, trebuie să rezolvăm o sarcină și mai dificilă de a crea o inteligență artificială prietenoasă, o simbioză a inteligenței umane și supraumane Astăzi, înțelegem învățarea automată ca fiind mașini de predare de către noi Pe ordinea de zi este crearea de mașini de auto-învățare Dar, în urma acestui lucru, inevitabil va apărea problema de a ne învăța prin mașini Vom fi capabili să înțelegem rezultatele gândirii mașinilor, să stăpânim noile cunoștințe obținute de mașini? Pentru a înțelege și a avea încredere în inteligența mașinilor De fapt, acest lucru se întâmplă deja, de exemplu, în Go și șah, unde nivelul de mașină al jocului îl depășește deja cu mult pe cel uman Iar profesioniștii de astăzi folosesc inteligența mașinilor pentru a pătrunde în secretele jocului lor preferat, dezvăluite de această minte de joc supraomenească (vezi secțiunea ) structura cărții Rezolvarea acestor probleme, potrivit autorului, este imposibilă fără o înțelegere mai profundă a principiilor inteligenței umane și a mașinilor Pentru ca psihicul artificial al roboților creați de noi să fie compatibil cu cel uman structura cărții Autorul nu a definit întâmplător genul cărții drept eseuri Capitolele sale individuale se bazează pe prelegeri susținute de autor de-a lungul unui număr de ani și, prin urmare, sunt relativ independente Acest lucru este convenabil, mai ales având în vedere presupusa eterogenitate a cititorilor Să spunem că publicul larg va fi interesat de capitolele , și - , în care starea actuală și perspectivele inteligenței artificiale sunt prezentate într-un limbaj simplu, astfel încât cei care doresc să se familiarizeze cu subiectul într-unul sau mai multe serile Întreprinzătorii cu constrângere de timp pot fi limitati la , și capitole Cei care sunt interesați de structura și principiile creierului vor beneficia de capitolele și În sfârșit, pentru dezvoltatorii care nu sunt familiarizați cu subiectul și doresc să intre cât mai repede în subiect pentru a înțelege mai bine esența algoritmi de învățare automată, vă putem recomanda capitolele - Dar, în general, prezentarea materialului are propria sa logică internă: În capitolul , vom lua în considerare locul inteligenței mașinilor în lumea modernă și rolul său special ca tehnologie de închidere a noii tehno-structuri Vom arăta cât de serioase sunt provocările la care răspunde inteligența mașinilor și cum poate îmbunătăți eficiența economiei globale Acest lucru ar trebui să ajute cititorul să înțeleagă mai bine perspectivele de dezvoltare a inteligenței mașinilor, motivându-l să se afunde mai adânc în acest domeniu Capitolul va introduce elementele de bază ale învățării automate și va defini locul acesteia în științe Este vorba de matematică PROLOG cheniya - formularea principalelor sarcini și metode pentru rezolvarea lor Se vor lua în considerare tipurile de bază de antrenament și algoritmii corespunzători Capitolul se concentrează pe revoluția învățării profunde - cauzele, realizările și aplicațiile sale practice deja implementate și încă așteaptă să fie implementate Sarcina noastră este de a ghici direcția de dezvoltare a industriei și barierele tehnologice care trebuie depășite în următorii - ani Capitolul arată cum principiile învățării automate profunde vă pot ajuta să înțelegeți și să modelați modul în care funcționează creierul În special, sunt explicate modalitățile de învățare și interacțiune între ele ale principalelor subsisteme cerebrale ale mamiferelor și, mai precis, ale primatelor Ne vor interesa principiile de bază ale arhitecturii creierului, precum modularitatea și ierarhia, care le-au permis strămoșilor noștri să crească capacitățile creierului în cursul evoluției prin creșterea numărului de module de același tip Aceleași principii pot fi folosite pentru a crea inteligență scalabilă a mașinilor Capitolul introduce teoria învățării prin consolidare structurală profundă care modelează gândirea simbolică, completând astfel capacitățile rețelelor neuronale de a lucra cu imagini Teoria se bazează pe principiile arhitecturale identificate în capitolul anterior, iar pe baza ei este posibilă construirea unor modele ale psihicului artificial al roboților, o nouă generație de sisteme de operare cu auto-învățare Capitolul are în vedere un caz special al acestei teorii - învățarea limbii, și anume, construcțiile de limbă de diferite niveluri - morfologic, sintactic și semantic Localizarea lor în creier este discutată și sunt prezentate rezultatele experimentale ale învățării limbajului automat Capitolul ilustrează posibile modalități de comercializare a rezultatelor obținute până în prezent: sunt discutate o serie de proiecte ambițioase de spărgător de gheață care depășesc bariere tehnologice importante și deschid noi orizonturi pentru afaceri Mulțumiri purtat Scopul său este de a mobiliza echipe de inițiativă pentru implementarea unor astfel de proiecte, care pot prezenta un interes deosebit pentru antreprenori Capitolul descrie cum poate arăta viitorul în - ani în cazul succesului proiectelor luate în considerare și ce probleme ne așteaptă acolo Să sperăm că soluția lor va fi găsită în cursul unei noi revoluții științifice asociate cu dezvăluirea principiilor generale ale gândirii În final, în ultimul capitol , vom extinde orizontul predicțiilor prezentând o imagine a dezvoltării inteligenței pe Pământ pe o perioadă de , miliarde de ani Pentru a arăta că mintea este inerentă naturii și, odată apărută, își accelerează inevitabil propria dezvoltare Deci evenimentele descrise în capitolul anterior sunt, într-o oarecare măsură, inevitabile Mulțumiri În această carte, considerăm gândirea umană ca un fenomen social Acest lucru este valabil și pentru conținutul cărții în sine: ideile formulate de autor s-au născut, de regulă, în comun - în dispute și discuții cu colegii Prin urmare, sunt sincer recunoscător tuturor celor care au participat direct sau indirect la nașterea sa Pentru a nu obosi cititorul, voi aminti doar organizațiile și comunitățile în care au avut loc discuțiile asupra problemelor ridicate în carte Începând cu fundațiile Dynasty and Trajectory, comunitățile NTI și Neuronet, inclusiv recent creat Centrul pentru Știința și Tehnologia Inteligenței Artificiale de la Institutul de Fizică și Tehnologie din Moscova și, nu în ultimul rând, clubul vizionarilor AI http: / /opentalks ai/thinktank Autorul speră sincer că această carte va atrage atenția tinerilor talentați și ambițioși și va contribui la dezvoltarea industriei de inteligență automată din Rusia capitolul Inteligența mașinilor în lumea modernă Peste o mie de poduri și căi trebuie să se strângă spre viitor și să fie tot mai mult război și inegalitate între ei: așa mă face să spun marea mea iubire! Chiar și ceea ce nu faci țese țesătura întregului viitor uman; chiar și neantul tău este o pânză și un păianjen care trăiește din sângele viitorului Friedrich Nietzsche "Așa a vorbit Zarathustra" INTELIGENTEA MAȘINILOR ÎN LUMEA MODERNĂ Inteligența mașinilor: este timpul? Înainte de a pătrunde într-un subiect nou, este întotdeauna bine să ne gândim: va da efortul? În acest capitol, vom avea o viziune generală asupra tehnologiei AI și a locului acesteia în economia digitală de astăzi Sarcina noastră este să înțelegem: este cu adevărat serios și de mult timp? Sau este doar un alt subiect trendy care a inundat temporar canalele TV și coperțile revistelor glossy până când publicul s-a săturat din nou de el Inovaţie Vârful așteptărilor umflate Jgheab de Deziluzie Stopa de Iluminist Podișul Productivității timp Se va ajunge la platou: O mai puțin de ani O până la ani O până la ani O mai puțin de ani obsolcte înainte de platou Orez Rețelele neuronale profunde, "calul de bătaie" al inteligenței artificiale moderne, se află astăzi în vârful entuziasmului și al așteptărilor mari Acest lucru este inevitabil urmat de dezamăgiri și doar treptat, pe măsură ce tehnologia se maturizează, o ieșire către un platou de productivitate Cu toate acestea, conform Gartner, este de așteptat un platou de productivitate pentru învățarea profundă destul de curând - în următorii ani [Panetta, ] Inteligența mașinilor: este timpul? Într-adevăr, acest lucru s-a întâmplat de mai multe ori în trecut și de fiecare dată perioadele de entuziasm și pasiune pentru inteligența artificială au fost înlocuite cu dezamăgiri ulterioare (vezi Figura ) Unde este garanția că de data aceasta speranțele puse asupra lui nu se vor dovedi irealizabile? Cum este situația actuală diferită de ceea ce s-a întâmplat înainte? Curba investițiilor de risc în inteligența artificială (Fig ) se va asemăna în viitorul apropiat cu faimosul boom și declin al dot-com-urilor de la începutul anilor ? Finanțare anuală VC a startup-urilor Al (SUA, - ) Sursa: Sand Hill Econometrics Investiție de risc ($ BN USD) - - Investiție de risc AII ($ BN USD) Orez US AI Venture Capital [Shoham et al , ] În această carte, vom apăra punctul de vedere că, în mare, vremea inteligenței artificiale abia vine, că închide pachetul tehnologic al noii ordini economice, adică este din punct de vedere strategic cea mai importantă tehnologie pentru apariția noii economii digitale Și că curba din fig descrie începutul unei noi revoluții științifice, în care învățarea automată va juca un rol central Pentru a face acest lucru, urmând lui Spinoza, vom încerca să integrăm inteligența mașinilor "în lanțul de evenimente în care aceasta INTELIGENTEA MAȘINILOR ÎN LUMEA MODERNĂ apare din necesitate, nu din întâmplare Adică, să privim dezvoltarea civilizației ca un proces în care inteligența artificială se încadrează organic astăzi, rezolvând o problemă urgentă, urgentă Depășirea barierei complexității Dezvoltarea civilizației umane poate fi privită ca un proces de învățare constantă, adică acumulare de cunoștințe Într-adevăr, ce diferențiază omul modern de strămoșii săi îndepărtați, homo sapiens timpurii? Fiziologic - nimic, singura diferență este în cantitatea de cunoștințe acumulată de omenire Cunoașterea aici este înțeleasă nu atât ca texte, ci ca cunoștințe operaționale "la îndemâna" reprezentanților tuturor profesiilor umane Ele sunt transmise atât formal, sub formă de articole științifice, reglementări tehnice, fișe de post etc , cât și informal, de la mentor la student Aceste cunoștințe ghidează comportamentul uman și alimentează întreaga economie globală Volumul total al acestora determină complexitatea "organismului economic" și volumul bunurilor produse de economie Beneficiile civilizației pot fi măsurate nu în bani, ci în cantitatea de bunuri și servicii disponibile [Beinhocker, ] Cu cât gama de produse este mai diversă, cu atât o persoană are mai multe oportunități de a-și satisface nevoile, cu atât este mai mare gradul de dezvoltare economică Cu alte cuvinte, bunăstarea economică este direct proporțională cu cantitatea de cunoștințe acumulată de omenire Creșterea bogăției înseamnă că cantitatea acestor cunoștințe crește mai repede decât populația Într-adevăr, răspândirea homo sapiens pe Pământ a început cu aproximativ de mii de ani în urmă cu o populație africană de aproximativ ІО Depășirea barierei complexității persoana Astăzi suntem deja ІО , adică Populația a crescut cu cinci ordine de mărime Cu toate acestea, gama de produse a crescut cu zece ordine de mărime în același timp - de la mai multe variante de unelte de piatră la ІО (o varietate de marcaje moderne cu coduri de bare UPC) Adică, cantitatea de cunoștințe acumulate crește aproximativ proporțional cu pătratul numărului de persoane în capul cărora sunt "instalate" aceste cunoștințe * * Este evident că cunoștințele nu pot fi acumulate într-un asemenea ritm la infinit Mai devreme sau mai târziu, limitările naturale ale creierului uman vor începe să afecteze, datorită cărora memoria totală maximă a omenirii crește liniar odată cu creșterea populației, adică mult mai lent Ipoteza autorului este că "mai devreme sau mai târziu" a venit deja Omenirea s-a confruntat deja cu problema depășirii barierei de complexitate a economiei cu gama de produse în creștere și sistemul global de diviziune a muncii Îngreunând extrem de situație, să presupunem că toți oamenii se specializează fiecare într-un "produs" Într-o societate primitivă cu o diviziune minimă a muncii, toată lumea era angajată în producerea acelorași produse, adică cunoștințele umane au fost duplicate de multe ori Creșterea economiei s-a datorat utilizării tot mai raționale a memoriei totale a omenirii - adâncirea diviziunii muncii și apariția unui număr tot mai mare de profesii Lumea modernă, aparent, se apropie de gradul ultim al diviziunii muncii, când setul de cunoștințe al fiecărui specialist devine unic În această limită, varietatea produselor se apropie de maximul său teoretic - numărul de persoane (vezi Fig ) În această carte, vom folosi adesea estimări de până la un ordin de mărime, i e ІО trebuie înțeles ca , • ІО - • ІО PIB-ul mondial este, de asemenea, proporțional cu pătratul populației cercetare [Korotaev et al , ], i e chiar crește proporțional cantitatea de cunoștințe INTELIGENTEA MAȘINILOR ÎN LUMEA MODERNĂ Varietate de produse Primii oameni: Astăzi: Ipoteză: Gamă de produse: UPC Orez Abordarea economiei mondiale la limita complexității asociată cu limitările creierului uman Aici complexitatea economiei mondiale C este măsurată prin numărul de produse unice, iar N este dimensiunea populației umane Un bun indicator al abordării umanității față de această limită este schimbarea legii creșterii populației De-a lungul istoriei cunoscute până în ultima treime a secolului XX Populația Pământului a crescut aproximativ în hiperbolă: proporțional cu (io - i) cu punctul de singularitate io ~ [Kremer, ; Von Foerster şi colab , ; Kapitsa, ] Apoi, creșterea hiperbolică a început să încetinească, iar din aproximativ rata relativă de creștere a populației a scăzut constant Acest fapt poate fi interpretat ca o dovadă că ordinea tehnologică actuală și-a epuizat potențialul și nu mai este capabilă să mențină ritmurile de creștere anterioare Depășirea barierei complexității este posibilă numai în cadrul unei noi ordini tehnologice digitale Noua paradigmă tehnologică Noua paradigmă tehnologică Conform ideilor existente, economia se dezvoltă ciclic, prin revoluții tehnologice, în timpul cărora are loc o schimbare a tiparelor tehnologice [Peres, ; Șchedrovitsky, ] Fiecare astfel de structură este caracterizată prin: • rezerve abundente ale unei resurse de bază relativ ieftine; • un pachet de tehnologii care exploatează eficient această resursă; • organizarea pieţei corespunzătoare acestui pachet tehnologic Trecerea la un nou mod de viață este posibilă numai după formarea unui pachet complet de noi tehnologii, care se conturează treptat în măruntaiele vechiului mod, unde fiecare dintre ele individual nu își poate realiza încă potențialul Astfel, există întotdeauna o singură tehnologie de închidere, fără de care stabilirea unui nou mod de viață este imposibilă și a cărei apariție inițiază o nouă revoluție tehnologică Este ușor de ghicit că, potrivit autorului, inteligența artificială este o tehnologie atât de finală astăzi Baza de resurse a ordinului tehnologic industrial de ieșire este combustibilul ieftin și abundent de hidrocarburi - baza energetică a economiei moderne Pachetul tehnologic constă din tehnologii de producție de mașini în masă și rețele globale de transport În cele din urmă, companiile multinaționale asigură organizarea unor lanțuri valorice complexe Ce va determina forma noii ordini tehnologice digitale? INTELIGENTEA MAȘINILOR ÎN LUMEA MODERNĂ Noua resursa abundenta si ieftina Principalul factor limitator al ordinii industriale, după cum am aflat, nu este epuizarea resurselor energetice, ci capacitatea limitată a creierului uman de a gestiona o economie globală din ce în ce mai complexă "În fiecare produs pe care îl folosim la începutul secolului , ponderea costurilor directe și indirecte de management variază de la la %" [Kovalevich și Shchedrovitsky, ] Răspunsul la această provocare a fost apariția și dezvoltarea rapidă a tehnologiei informatice Calculatoarele au făcut posibilă preluarea unei părți a algoritmilor din capul uman într-un mediu în care pot fi executați de milioane de ori mai rapid În consecință, tot ceea ce poate fi formalizat este transferat din capul uman în acest nou mediu digital artificial Embrionul unei noi faze în intestinele vechiului mod crește exponențial, conform legii lui Moore - dublarea puterii computerului și o scădere a costului unitar al calculului la fiecare an și jumătate până la doi ani De fapt, această lege descrie apariția unei noi resurse abundente și ieftine pentru omenire Mai devreme sau mai târziu, puterea de calcul în creștere exponențială a computerelor trebuie să depășească "puterea de calcul" aproape constantă a oamenilor Într-un fel, acest moment a sosit deja și astăzi trăim într-o eră a puterii de calcul din ce în ce mai mari, depășind tot mai mult "puterea de calcul" totală a oamenilor (numărul de oameni înmulțit cu cantitatea maximă a cunoștințelor lor individuale) și viteza de acces la aceste cunoștințe) (vezi fig ) Limita cunoștințelor individuale este determinată de viteza de asimilare cunoștințe umane ( octeți pe secundă - viteza vorbirii) De de ani Învățare perturbatoare timp de ore pe zi, o persoană poate învăța maxim IO* * * octeți În consecință, cantitatea maximă de cunoștințe în capul întregii omeniri: IO octeți "Puterea de calcul" maximă a umanității ( octeți/sec) se obține prin înmulțirea acestei valori cu "frecvența de ceas" a creierului ~ Hz Noua paradigmă tehnologică IO - IO - IO - IO - IO - IO - Yui "! și și Orez Creșterea puterii totale de calcul, conform Hilbert și Lopez, Acestea sunt concentrate nu în procesoare de uz general (CPU, ramură inferioară), ci în acceleratoare grafice (GPU, ramură superioară), care sunt utilizate în principal pentru antrenarea rețelelor neuronale artificiale Astfel, puterea computerului este o nouă resursă ieftină și abundentă pentru formarea unei noi ordini tehnologice digitale În plus, spre deosebire de alte resurse, aceasta crește constant și foarte rapid și se ieftinește; este astăzi principala sursă potenţială de creştere economică Cu toate acestea, până acum acest potențial inerent computerelor nu a fost încă folosit practic De cele mai multe ori sunt pur și simplu inactiv Potrivit unui raport recent Desigur, puterea computerului nu este o resursă naturală, ci o resursă tehnologică Dar pachetele de tehnologie sunt formate din stive de diverse tehnologii, ale căror etaje inferioare servesc drept resursă pentru cele superioare Ne-am hotărât pe o tehnologie de masă destul de matură pentru producția de chipsuri, deoarece în caz contrar, siliciul sau chiar nisipul ar trebui să fie considerate principala resursă a economiei digitale INTELIGENTEA MAȘINILOR ÎN LUMEA MODERNĂ McKinsey, dezvoltarea tehnologiilor digitale în Statele Unite în ultimii de ani a fost însoțită de o încetinire a creșterii productivității muncii [Mapuika et al , ] Potrivit autorului, doar inteligența mașinii este capabilă să deblocheze adevăratul potențial economic al computerelor, permițându-le să rezolve problemele mai bine, mai rapid și mai ieftin decât oamenii Pachet nou de tehnologie De ce inteligența mașinii? Ce fundamental nou va adăuga el la tehnologiile informatice existente? Și de ce aceste tehnologii nu sunt suficiente pentru a exploata eficient puterea de calcul în creștere și mai ieftină? Răspunsul se află la suprafață Doar că volumul total al tuturor algoritmilor de computer creați vreodată este neglijabil în comparație cu volumul tuturor cunoștințelor umane Calculatoarele, în limbajul de zi cu zi, sunt "rapide, dar stupide" În consecință, majoritatea deciziilor sunt încă luate de oameni, iar computerele joacă un rol auxiliar, efectuând doar acele operațiuni care au fost formalizate și automatizate Drept urmare, în ciuda tuturor investițiilor în tehnologia informației, impactul acestora asupra economiei este încă foarte limitat Procesul de formalizare a cunoștințelor umane este extrem de lent algoritmii sunt creați de un mic strat de oameni, programatori (există aproximativ IO dintre ei în lume astăzi) Cantitatea de cunoștințe în programe de calculator este limitată de cunoștințele totale ale programatorilor, care este cu trei ordine de mărime mai mică decât cantitatea totală de cunoștințe umane Dacă algoritmii continuă să fie creați de oameni, acest proces poate dura pentru totdeauna, având în vedere viteza de actualizare a cunoștințelor Singura cale de ieșire este să scapi de blocajul programării "manuale" și să încredințezi crearea de programe computerelor Acest proces este automat Noua paradigmă tehnologică Nașterea algoritmilor este asigurată tocmai de învățarea automată Astfel, numai învățarea automată, susținută de nivelul atins de putere a computerului, poate într-un timp scurt să crească dramatic inteligența mașinii la nivelul uman și să încarce această putere cu acele sarcini care sunt în prezent disponibile numai pentru oameni Este exact ceea ce am văzut în ultimii ani, după ce așa-numita inteligență artificială a devenit principala paradigmă a inteligenței artificiale deep learning [LeCun, Bengio et al , ] Tocmai cu această abordare sunt asociate progresele recente în viziunea computerizată, recunoașterea vorbirii, traducerea automată etc , unde inteligența automată înalt specializată atinge nivelul uman, adică îl poate înlocui parțial Cu alte cuvinte, inteligența artificială este tehnologia de închidere a noului pachet tehnologic, necesară și suficientă pentru a începe o nouă revoluție industrială Noua organizare a pietei În fiecare mod, este posibil să se identifice "celulele" de bază ale "organismului său economic" [Shchedrovitsky, ] Prima revoluție industrială a dat naștere fabricilor, a doua - corporații transnaționale Care va fi principala modalitate de organizare a pieței în noua ordine digitală? Cum se vor integra tehnologiile de inteligență artificială în ea? Baza ordinii industriale este producția și distribuția în masă a mărfurilor Producătorii umplu piața cu mărfuri, concentrându-se pe cererea în masă Orice cerere non-standard rămâne nesatisfăcută Într-o lume digitală, piețele sunt adaptate nevoilor individuale Capacitatea de a satisface orice cerere înmulțește volumul pieței datorită efectului de coadă lungă [Anderson, ] Acest lucru este valabil și pentru piața muncii: cum INTELIGENTEA MAȘINILOR ÎN LUMEA MODERNĂ Când un produs își găsește cumpărătorul, orice abilități, cunoștințe și abilități își găsesc aplicarea ca parte a echipelor de proiect temporare cu combinații unice de competențe unice Odată cu transferul unei părți din muncă către agenți inteligenți cu abilități supraomenești, productivitatea muncii poate crește cu ordine de mărime Un echilibru delicat între cerere și ofertă poate fi asigurat de platformele digitale care operează cu gemeni digitale de servicii, bunuri și oameni De fapt, asta este ceea ce vedem astăzi: companiile din noua economie furnizează servicii exclusiv personalizate: Google și Facebook furnizează informații și publicitate în mod individual, Amazon și Netflix ajută la selectarea bunurilor și a divertismentului pe placul lor, ghicind nevoile utilizatorilor după urme digitale Noile companii cu platforme exclud în mod activ companiile multinaționale din trecut și cresc într-un ritm care este un multiplu al creșterii economiei mondiale (vezi Fig , ) Î Orez Cele mai mari companii din lume devin lideri ai noii ordini digitale [Desjardins, ] Cursa pentru inteligența artificială Orez Liderii noii ordini cresc într-un ritm mai rapid Ratele lor medii anuale de creștere ( - %) sunt cu un ordin de mărime mai mari decât ratele de creștere ale economiei mondiale ( , - %) Acest lucru se datorează efectului de feedback pozitiv care este caracteristic noii economii bazate pe învățarea automată: mai mulți clienți - mai multe date - o calitate mai bună a serviciului - și mai mulți clienți La urma urmei, rezultatele învățării automate sunt proporționale cu cantitatea de date Prin urmare, companiile noii economie, care au fost primele care și-au capturat segmentul de piață, trec repede în frunte Cursa pentru inteligența artificială Înțelegerea rolului excepțional al conducerii în economia noii ordini a dat naștere unei noi curse tehnologice - pentru inteligența artificială În ultimii doi ani, două duzini de țări și-au dezvoltat propriile strategii naționale în domeniul inteligenței artificiale [Karelov, ] Abia a început, noua cursă nu mai este inferioară curselor nucleare și de rachete din secolul al XX-lea în ceea ce priveşte amploarea investiţiilor, care în acelaşi timp continuă să crească cu rate de două cifre Conducă în Această investiție promite să plătească profitabil Potrivit lui Bughin et al , până în AI ar putea adăuga aproximativ trilioane de dolari la producția totală și , % la creșterea anuală a PIB-ului global până în treizeci INTELIGENTEA MAȘINILOR ÎN LUMEA MODERNĂ Statele Unite și China sunt în frunte cu o marjă largă (a se vedea figura ), dar jucători mai mici, cum ar fi Israel , îmbrățișează în mod activ economia digitală Investiție de % Creștere de % pe an % investitie Creștere % pe an - de miliarde de dolari de miliarde de dolari de miliarde de dolari Orez Investiții în principalele curse tehnologice - nucleară, rachetă și inteligență artificială Datele pentru Proiectul Manhattan și Proiectul Apollo sunt preluate de pe Wikipedia și convertite în dolari , investiție în inteligență artificială în - estimare Bughin și colab , Participanții la cursă se grăbesc să se alăture lanțurilor valorice globale ale noii economii emergente, cu o productivitate a muncii mult mai mare Țările rămase în urmă vor rămâne din ce în ce mai mult în urma liderilor în ceea ce privește nivelul, calitatea și speranța de viață, cu riscul de a rămâne complet în urmă și de a se transforma în state eșuate Suveranitatea lor va fi în mare măsură o iluzie În , miliarde de dolari au fost investite în startup-uri israeliene, cu % mai mult decât în [Presă, ] De exemplu, venitul Apple per angajat este de aproximativ , milioane USD, de ori mai mare decât cel al Rosneft și de de ori mai mare decât cel al Rostelecom [Zavadovskaya și Karpov, ] Provocați Rusia caracter răutăcios, pentru că toate deciziile economice majore vor fi luate fără participarea lor și fără a ține cont de interesele lor Să ne amintim soarta de neinvidiat a Chinei și Indiei, care nu s-au încadrat în prima revoluție industrială Dar înainte de asta, au fost lideri tehnologici și împreună au produs mai mult de / din PIB-ul mondial! Din aceste poziții, principala amenințare a Rusiei moderne este să se dovedească a fi una dintre astfel de țări, să suplimenteze exportul de țiței cu exportul de date brute, lăsând toată redistribuția lor ridicată și toată plusvaloarea economiilor mai dezvoltate Provocați Rusia Astăzi, Rusia se deschide o fereastră rară de oportunitate - să participe la formarea unei noi economii, mai mult sau mai puțin pe picior de egalitate, să-și pună în evidență unele sectoare de noi piețe în creștere rapidă, până când liderii cursei vor pleca în frunte Desigur, țările dezvoltate, în principal Statele Unite, au un restanțe semnificative Dar aceasta nu predetermina în niciun caz victoria foștilor lideri în noua cursă Astfel, Microsoft și Intel nu au reușit să-și stabilească liderul pe noua piață a dispozitivelor mobile, iar Google, oricât ar fi încercat, nu a putut concura cu Facebook în rețelele de socializare O carte excelentă publicată recent [Lee, ] justifică șansele mari ale Chinei de a ajunge din urmă și de a depăși SUA în această competiție Strategia Chinei se bazează pe avantajele sale competitive naturale - lider în plățile mobile și comerțul electronic, abundența de date generate de acestea și un mediu extrem de competitiv pentru întreprinderile mici și mijlocii Strategia Rusiei ar trebui să se bazeze și pe avantajele sale competitive Datorită circumstanțelor istorice, rușii de astăzi nu au chinezii și americanii inerente INTELIGENTEA MAȘINILOR ÎN LUMEA MODERNĂ perspicacitate antreprenorială Nu avem o piață internă încăpătoare, în creștere rapidă, și nici o forță de muncă ieftină, așa cum era înainte în China, pentru a atrage investiții străine în țară În aceste circumstanțe, copierea soluțiilor tehnologice deja cunoscute și transferul schemelor de afaceri deja stabilite pe pământul rus sunt neproductive Nu avem avantaje competitive aici pentru a cuceri segmente semnificative ale economiei digitale globale Pe de altă parte, din aceleași circumstanțe, avem școli de fizică, matematică și programare puternice din punct de vedere istoric Astăzi acesta este un real avantaj, pentru că centrele de creare a valorii trec de la producție la dezvoltare și design, iar intelectul dezvoltatorilor devine principala forță productivă [Agamirzyan, ] Rusia este furnizorul acestui personal de elită, ne primind aproape nimic în schimb În schimb, Rusia s-ar putea poziționa ca un "birou de proiectare la nivel mondial" în domeniul inteligenței mașinilor, concentrându-se pe rezolvarea problemelor fundamentale și pe depășirea barierelor tehnologice care deschid oportunități pentru creșterea rapidă a noilor companii rusești cu ambiții globale Aceste companii, centre de excelență de talie mondială, vor genera cerere efectivă pentru cel mai bun personal rus și îi vor asedi acasă Ei vor deveni, de asemenea, cumpărători de proiecte de risc de succes pentru a-și accelera creșterea, oferind cererea internă pentru industria rusă de capital de risc În SUA, antreprenorii reprezintă , % din populația aptă de muncă, în Rusia - , % În Rusia, aproximativ % din populație este angajată în întreprinderi mici și mijlocii, în timp ce în țările dezvoltate - de la la %, iar în China - % [SPIEF- , ] În produsele Apple, designul, ingineria și marca reprezintă % din costuri, în timp ce producția și asamblarea componentelor reprezintă doar % [Agamirzyan, ] Companiile vechi sunt incapabile organic de astfel de descoperiri Provocați Rusia Pe baza ponderii actuale a Rusiei în PIB-ul mondial, lista Forbes Global a elitei economice mondiale ar trebui să fie de cel puțin %, i e peste de companii rusești Astăzi sunt doar dintre ele, companii cu mai puțin de un deceniu în urmă, iar numărul lor va continua să scadă constant, pe măsură ce stilul de viață eliberat este forțat să iasă din această listă În consecință, strategia Rusiei ar trebui să prevadă crearea în următorii - ani, înainte de a se închide fereastra de oportunitate, a câtorva zeci de companii high-tech cu o cifră de afaceri de cel puțin un miliard de dolari, de amploarea AFK Sistema Aceasta este o adevărată provocare pentru Rusia, dar tocmai de acest rezultat, în opinia autorului, ar trebui să se ghideze strategia rusă de dezvoltare a economiei digitale Numai în acest fel Rusia va putea crea competențe semnificative în acest domeniu important din punct de vedere strategic În această carte, ideea de a se concentra pe rezolvarea problemelor fundamentale, pe lansarea unor proiecte adecvate de "spărgător de gheață" care sparg gheața și deschid noi rute comerciale, merge ca un fir roșu Rusia este liderul mondial în clasa de spargere a gheții De ce nu luăm nișa demnă corespunzătoare în domeniul inteligenței artificiale? "A sosit timpul ca un om să-și stabilească propriul obiectiv A sosit timpul ca omul să planteze sămânța celei mai înalte speranțe", a spus Zarathustra Numărul companiilor dintr-o economie este invers proporțional cu dimensiunea acestora, astfel încât pentru fiecare companie mare există zeci de companii mijlocii și sute de mici Doar că companiile mari sunt mai ușor să "conteze pe capul lor", așa cum face Forbes capitolul Elementele fundamentale ale învățării automate* Caut fundatie imi este suficient un span de fundatie: de-ar fi cu adevarat o fundatie si un pamant! - travee de bază: poți sta pe el Duhul este viața, care el însuși străbate cei vii: prin propria suferință își mărește cunoștințele - știai deja asta? Friedrich Nietzsche "Așa a vorbit Zarathustra" * Material de complexitate crescută! BAZELE ÎNVĂȚĂRII MAȘINI Noțiuni de bază Învățarea automată ca știință Învățarea automată este știința sistemelor capabile să învețe, iar inteligența care rezultă dintr-o astfel de învățare este știința acelei părți a naturii care a învățat să învețe Ea completează în mod natural științele fizice, care sunt limitate la sisteme care nu sunt capabile să învețe, și este aproape ideologic de științele biologice, deoarece viața este din punct de vedere istoric prima parte a naturii care a învățat să învețe Evoluția biosferei nu este altceva decât acumularea constantă de cunoștințe despre lume în codul genetic al biotei Algoritmul pentru o astfel de învățare (ereditate - variabilitate - selecție) a fost descoperit de Darwin și ulterior rafinat ținând cont de datele genetice Algoritmii genetici scoși din viață sunt un caz special de învățare automată [Mitchell, ] Creierul animalului este un alt exemplu de sistem capabil să învețe Creierul codifică algoritmi de comportament, iar designul său este cel mai important factor în lupta pentru existență Capacitatea creierului de a învăța este o caracteristică adaptativă valoroasă, deoarece vă permite să vă adaptați la o varietate de circumstanțe externe prin acumularea experienței de viață În consecință, în procesul de evoluție, creierul s-a îmbunătățit constant în capacitatea sa de a învăța și de a stoca cunoștințele acumulate Creierul uman, de exemplu, reușește să acumuleze în procesul de ordine de mărime a vieții mai multă informație decât este conținută în genotipul său Un alt exemplu de sistem de învățare este civilizația umană în ansamblu, care se acumulează și se transferă Până la % din toate genele sunt exprimate în creierul animalelor superioare [Lein et al , ], i e genomul lor este practic o specificație pentru proiectarea creierului Noțiuni de bază împărtășirea cunoștințelor din generație în generație cu ajutorul principalei invenții a omului - limbajul Cu toate acestea, comportamentul inteligent poate fi manifestat nu numai prin vii, ci și prin sisteme artificiale Până de curând, un astfel de comportament era programat de oameni, iar computerele executau pur și simplu programele încorporate în ele Dar, literalmente, sub ochii noștri, computerele încep să dobândească capacitatea de a învăța În același timp, ei sunt capabili să învețe de milioane de ori mai repede decât creierul, precum și să acumuleze și să transfere aceste cunoștințe către alte mașini Și nu există nicio îndoială că, în urma acestei tehnoevoluții, va apărea un nou tip de inteligență - inteligența mașinilor Și nu se va întâmpla peste de ani, ci sub ochii noștri și cu participarea noastră Doar în ultimii câțiva ani, computerele au învățat să facă aproape tot ceea ce face o persoană în mai puțin de o secundă la nivel subconștient - au stăpânit toate tipurile de recunoaștere a modelelor Urmează gândirea conștientă și comunicarea om-mașină în limbaj natural Inteligența mașinilor va fi principala știință a secolului , urmând fizicii și științele conexe care au dominat secolul Fizica ne oferă energie și capacitatea de a produce multe lucruri utile Inteligența mașinilor va face aceste lucruri inteligente Unii mai mult, alții mai puțin, dar lucrurile din jurul nostru își vor dobândi în curând propria voință, scopurile și vor interacționa activ cu noi și între ele Inginerii din trecut au proiectat mașini mecanice și electronice care își executau orbește programele inginerii secolului XXI va construi personalități artificiale capabile să gândească, să învețe și să experimenteze emoții Și, de asemenea, creați o minte colectivă din ei În acest fel, și numai în acest fel, ne putem cunoaște pe noi înșine, propria noastră minte Căci, în cuvintele lui Richard Feynman: "Ceea ce nu pot recrea, nu înțeleg" Împreună cu științe conexe care construiesc diferite tipuri de inteligență, inclusiv inteligența sistemelor biologice și sociale BAZELE ÎNVĂȚĂRII MAȘINI Definiții: minte, intelect și conștiință Semnificațiile cuvintelor într-o limbă sunt determinate de natura utilizării lor Cuvintele la fel de importante precum minte, intelect și conștiință sunt folosite în moduri diferite de către diferiți oameni, astfel încât semnificațiile lor sunt destul de vagi Fără a pretinde prea multă rigoare pentru definiții, să explicăm cum le vom înțelege în această carte Să începem cu concepte mai simple de informație și algoritmi pentru prelucrarea acesteia de către computere Acestea din urmă sunt dispozitive capabile să-și distingă clar stările individuale (stocarea informațiilor sau date) și să organizeze tranziții între ele (procesează informații sau execută algoritmi) Dacă dispozitivele au aceste proprietăți, putem ignora din ce sunt făcute, adică distrage atenția de la material și se concentrează pe ideal - structuri de date și algoritmi Acestea sunt abstracții foarte convenabile și fructuoase De exemplu, atunci când copiem un fișier de pe un computer pe o unitate flash USB, considerăm că l-am salvat ca un anumit obiect intangibil, fără a ține cont de faptul că purtătorii acestui obiect sunt diferiți și se supun unor legi fizice diferite Când vorbim despre algoritmi, suntem distrași de la legile specifice ale mișcării materiei, cu ajutorul cărora acestea sunt implementate în anumite mașini Pentru a înțelege algoritmii creierului, îl vom considera o mașină biologică Acest lucru sună ciudat, deoarece suntem obișnuiți cu mașini mecanice relativ simple și, deși mai complexe, dar totuși mai degrabă "prostii" computere Dar în această carte, mașinile sunt înțelese mai larg, deoarece le vom înzestra cu inteligență O anumită clasă de algoritmi de învățare automată oferă mașinilor capacitatea de a acumula cunoștințe despre lumea exterioară în procesul de interacțiune cu aceasta și de a folosi aceste cunoștințe pentru a-și atinge obiectivele În această carte noi Noțiuni de bază vom considera ca un semn generic al mintii capacitatea de a stabili si atinge unele obiective in conditii anterior imprevizibile În consecință, vom pleca de la următoarea definiție: Mintea este un algoritm de comportament adaptativ din ce în ce mai complex Abilitatea de a complica algoritmi, de ex la învățarea automată, este, din punctul nostru de vedere, cheia în teoria inteligenței automate Cu cât o mașină are mai multe cunoștințe, cu atât este mai inteligentă și comportamentul ei poate fi mai complex Inteligența este un caz special al minții, când comportamentul este procesul de gândire în sine, adică caz de "minte pură" - un algoritm care îndeplinește criteriile de rezonabilitate pentru a-și controla propria execuție O astfel de definiție corespunde înțelegerii intuitive a inteligenței ca abilitatea de a rezolva sarcini "creative" arbitrare, algoritmul de rezolvare care nu este cunoscut în prealabil În plus, nu vom sublinia în mod inutil diferențele dintre inteligență și rațiune, de exemplu, în expresii familiare, cum ar fi inteligența mașinilor Termenul bine consacrat de inteligență artificială (sau AI pe scurt), care este de obicei înțeles ca algoritmi pentru rezolvarea anumitor sarcini cognitive la nivelul sau mai bun decât o persoană, va fi folosit în principal într-un context social, de exemplu, atunci când se discută despre deplasare de oameni din producţie În cele din urmă, conștiința este senzația subiectivă a procesului de gândire, capacitatea minții sau intelectului de a simți progresul execuției sale Acesta este un concept mai complex care are legătură doar tangenţial cu subiectul acestei cărţi şi vom amâna discutarea lui până la capitolul Deoarece algoritmii sunt executați de mașini, este logic să vorbim despre inteligența mașinii, indiferent de originea naturală sau artificială a mașinii - dar BAZELE ÎNVĂȚĂRII MAȘINI purtător al intelectului Mintea, ca orice program, poate fi transferată de la o mașină la alta Cu alte cuvinte, mintea poate fi modelată prin simularea algoritmilor corespunzători cu diferite grade de precizie Deci, mintea corespunde unei anumite clase de algoritmi care pot deveni mai complexe în procesul de interacțiune a acestora cu mediul extern Reamintim că, conform lui Kolmogorov, oricărui algoritm A i se poate atribui complexitatea sa C(A), definită ca lungimea cea mai mică a unui program de calculator care implementează acest algoritm În consecință, avem posibilitatea de a măsura nivelul de inteligență prin complexitatea algoritmului corespunzător Învățarea, adică acumularea de cunoștințe corespunde unei creșteri a complexității algoritmului comportamental în procesul de interacțiune cu mediul extern: C(A)>C(A/), t>t' O astfel de interacțiune este necesară, deoarece numai că poate servi ca sursă de informații noi care nu sunt conținute în programul original Utilitatea cunoștințelor acumulate este determinată de capacitatea algoritmului de a facilita interacțiunea adaptativă cu mediul În sistemele biologice, de exemplu, capacitatea unei populații de a supraviețui este maximizată Alte obiective pot fi puse în inteligența artificială, de exemplu, diverse versiuni ale celor trei legi ale roboticii Dacă este dat scopul comportamentului, atunci se înțelege că este posibil să se distingă acțiunile corecte de cele eronate Și din moment ce vorbim despre comportamentul adaptativ în condiții de incertitudine, atunci comportamentul adaptativ oportun este caracterizat printr-o scădere a probabilității erorilor în timp, i e antrenamentul minimizează riscurile de comportament neadecvat: £(A) t', Fără un mediu extern, orice stare a memoriei mașinii At este obținută automat, de exemplu are aceeași complexitate ca Aq Noțiuni de bază unde £(A^) este costul comportamentului eronat al algoritmului A la momentul t Astfel, până la urmă, nu cunoștințele în sine contează, ci comportamentul corect bazat pe ea Evident, cu cât algoritmul este mai complex, cu atât mai larg este repertoriul posibilelor programe de comportament și cu atât mai mare este capacitatea mașinii de a-și atinge obiectivele Sarcina învățării automate este de a folosi aceste oportunități cu eficiență maximă Învățare automată: modele Să fie descrisă interacțiunea cu mediul prin obținerea unui set de date empirice D, a căror formă specifică nu este încă importantă pentru noi Sarcina învățării este generalizarea optimă a acestor date empirice, adică construirea unui model care să permită prezicerea unor evenimente noi D și răspunsul corect la acestea, pe baza experienței cunoscute din trecut Astfel de predicții în cazul general sunt de natură probabilistică: o anumită ipoteză h este o generalizare a setului de date disponibil - un model de generare de date probabilistice P(D\h) Cât de bine se potrivește această ipoteză cu datele observate D este determinat de așa-numitul risc empiric L(D\h) Riscul empiric poate fi măsurat în biți - câtă memorie este necesară pentru a codifica erorile de model Cu cât modelul este mai precis, cu atât mai mic L(D\h\, cu atât datele observate sunt mai compacte codificate folosind modelul După cum vom vedea în curând, învățarea este strâns legată de comprimarea datelor cu modele Într-adevăr, datele aleatorii sunt incompresibile Orice compresie de date se bazează pe modele inerente Cu cât putem descoperi mai multe modele, cu atât putem obține mai multă comprimare a datelor și cu atât puterea predictivă a modelului nostru este mai puternică Desigur, dorim ca ipoteza h aleasă de noi să fie cea mai bună aproximare posibilă la real BAZELE ÎNVĂȚĂRII MAȘINI sti Și anume, că minimizează eroarea medie așteptată de a prezice datele cu ajutorul său, așa-numita eroare de generalizare: £ (A) = (i(D|ft))P(D|ho) ■ ( ) Aici ho este adevăratul model de generare a datelor, iar media este peste toate eșantioanele de date posibile de aceeași dimensiune |P| Problema este că ne este necunoscut și poate nici măcar să nu aparțină clasei de ipoteze pe care am ales-o Astfel, eroarea de generalizare este o mărime neobservabilă Adică vrem să optimizăm ceea ce nu putem măsura Aceasta este problema fundamentală a teoriei învăţării, deoarece putem optimiza doar cantități măsurabile Aceasta este cea mai bună aproximare a ( ) din clasa aleasă de ipoteze: £(A) = (£(O|A))P(ED ( ) O putem minimiza Pentru aceasta, este suficient ca seturi de date mai probabile să fie prezise mai bine decât cele mai rare Și anume, riscul empiric ar trebui să fie legat de probabilitatea de a genera date prin relația: L(D\h) - log P(D\h) + const, ( ) unde const este o constantă de normalizare și logaritmul este luat la baza dacă măsuram riscul în biți Într-adevăr, conform binecunoscutei teoreme Shannon privind codificarea optimă, lungimea medie a mesajului codificat va fi minimă dacă lungimea codului simbolurilor L(x) este legată de frecvența lor P(x) prin relația P( x) = -logP(a;) + const, adică de ex cu cât un caracter este mai comun, cu atât codul său binar ar trebui să fie mai scurt Orice alt cod va avea ca rezultat o lungime așteptată a mesajului mai mare Astfel, dacă putem măsura riscul empiric L(D \ h), putem determina și modelul optim Noțiuni de bază generarea datelor P(D\h) conform ( ), minimizând estimarea erorii de generalizare ( ) Astfel, ipoteza optimă corespunde compresiei maxime a datelor Dezvoltând această idee, putem selecta complexitatea optimă a modelelor Complexitatea optimă a modelului Să fie selectată ipoteza h dintr-o anumită clasă de ipoteze H cu ajutorul parametrilor de reglare care îi determină locul în această clasă Complexitatea modelului H este determinată de cantitatea de memorie L(h\H) necesară pentru descrierea acestuia, adică crește cu numărul de parametri de reglare \Н\ Pe de altă parte, un model mai complex poate descrie mai bine datele observate, de exemplu L(D\h) scade pe măsură ce \H\ crește Extinderea clasei de ipoteze aduce și estimarea erorii de generalizare ( ) mai aproape de mărimea adevărată neobservată ( ) Este logic să presupunem că modelul optim corespunde compresiei maxime posibile a datelor cu ajutorul modelului, adică lungimea totală a descrierii datelor și a modelului: L(D,h) = L(D\h) + L(h\H) ( , ) Într-adevăr, această lungime totală a descrierii este cea care limitează eroarea neobservabilă de generalizare ( ) de sus Acesta este unul dintre cele mai importante rezultate ale teoriei învățării Aceste considerații stau la baza principiului lungimii minime a descrierii (Lungimea minimă a descrierii, MDL [Rissanen, ]) Conform acestui principiu, modelul optim ar trebui să minimizeze lungimea totală a descrierii datelor și a modelului ( - ): hMDL = argminL(t>, λ) ( , ) h Rețineți că primul termen din ( ) este proporțional cu cantitatea de date |P|, iar al doilea termen este proporțional cu numărul de parametri de reglare a modelului \H\ Astfel, există două cazuri limitative BAZELE ÎNVĂȚĂRII MAȘINI Dacă numărul parametrilor modelului este mic în comparație cu dimensiunea setului de antrenament, |ІГ| |£>|, atunci lungimea descrierii modelului din ( ) poate fi neglijată și pur și simplu putem minimiza eroarea de învățare observată Aceasta este abordarea tradițională a statisticii matematice Criteriul de optimitate corespunzător este cunoscut sub denumirea de principiul probabilității maxime (ML): bm - argminL(D| i) - argmaxP(D| i) ( , ) hh Pentru modele statistice simple, cum ar fi regresia liniară și o cantitate relativ mare de date, această aproximare funcționează excelent Cu toate acestea, modelele prea simple nu sunt optime dacă cantitatea de date disponibilă permite formarea unor modele mai complexe cu mai puțină eroare de predicție În limita opusă a modelelor prea complexe cu |НI " I-DI, care este tipic pentru rețelele neuronale profunde moderne, conținând uneori sute de milioane de parametri, așa-numitul problemă de supraadaptare: un număr mare de parametri pot reduce eroarea de învățare până la zero, de exemplu pur și simplu memorați seturi de date specifice, în loc să le generalizați Modelul suprainstalat nu are nimic de-a face cu modelul adevărat și poate avea o eroare mare de generalizare Prin urmare, antrenamentul modelelor suficient de complexe trebuie să fie regularizată prin impunerea diferitelor restricții asupra parametrilor acestora care reduc artificial complexitatea modelului Regularizarea învățării este unul dintre subiectele transversale ale teoriei învățării automate și vom reveni constant asupra acesteia Învățarea ideală folosește modele de complexitate optimă, urmând principiul lungimii minime a descrierii Astfel de modele au cea mai bună putere de predicție Și anume, lungimea totală a descrierii L(D,/z), conform Noțiuni de bază Varpik, , limitează eroarea medie așteptată neobservată pe date noi: £oW ,/r) ( , ) Un alt rezultat profund al teoriei învățării este estimarea complexității optime a unui model Conform Rissanen, , lungimea descrierii modelului optim este L(hMDL\H) = \H\logie/\D\ ( , ) Astfel, complexitatea algoritmului crește într-adevăr odată cu învățarea, dar rata de acumulare a cunoștințelor scade odată cu creșterea numărului de exemple Adică, învățăm cel mai rapid în etapele inițiale ale învățării (în copilărie), iar îmbunătățirea ulterioară a modelului se realizează cu o dificultate tot mai mare Cu o cantitate finită de date, acuratețea determinării parametrilor modelului este întotdeauna finită: numărul mediu de biți pe grad de libertate este log -y/|D| O setare mai precisă a parametrilor este un exces de acuratețe: setul de date disponibil nu ne permite să le stabilim mai precis În consecință, rezultatul învățării este dat nu de un punct, ci de o mulțime din spațiul parametrilor, al cărei volum este determinat de ( ) Cea mai generală interpretare, bayesiană, a învățării permite definirea și utilizarea formei acesteia Interpretarea bayesiană a învățării Mai sus, am luat în considerare alegerea modelului optim de generare a datelor P(D\h) Învățarea într-o formulare mai generală presupune rezolvarea problemei inverse: conform datelor disponibile Mai exact, cu o probabilitate nu mai mică de - my: £o(h) |H) = -logP(L>|H) = -\og^hP(D,h\H) , deoarece log(P) > (logP) algoritmul EM Modelul bayesian optim poate fi găsit iterativ: pentru parametrii de regularizare dați EP, estimați probabilitățile ipotezelor P(h\D, P), apoi corectați parametrii de regularizare Ht+ și așa mai departe Să aruncăm o privire mai atentă la această metodă foarte comună de învățare Modelul optim corespunde lungimii minime a descrierii datelor L(D\ET) = - iog'Ș hP(D,h\H') Pentru a scăpa de însumarea sub semnul logaritmului, există un truc binecunoscut - introducerea unei variabile independente suplimentare P(A) (funcția de distribuție necunoscută nouă) Noțiuni de bază Orez Maximizarea Dovezilor implică alegerea celui mai simplu model pentru explicarea datelor Modelul H\ nu se potrivește cu datele Dq Modelul poate explica nu numai datele disponibile, ci și o gamă largă de alte rezultate ale experimentului Condiția de normalizare își scade automat Dovezile Potrivit lui Bayes, dovezile empirice susțin modelul Făcând o medie pe această funcție de distribuție L(D \ H \ independent de ea), obținem următoarea identitate: L(D|H) = -(WI ) ' În etapa de Maximizare, parametrii de regularizare sunt rafinați prin maximizarea lungimii medii bayesiene a descrierii datelor și ipotezelor, după cum urmează din ( ): ht+ = argmin {L (D, h\H))pt = argmax (log P(D, h\H)}pt HH Astfel, cu prețul introducerii unei variabile suplimentare P(/i), am scăpat de însumarea sub semnul logaritmului Medierea logaritmilor din ultima expresie este potențial o sarcină mult mai simplă Cei care au studiat fizica statistică vor observa cu ușurință analogia funcționalelor L(D\EF) și FiP^H} cu energia liberă În acest caz, primul este definit prin logaritmul funcției de partiție - L(D \ H} = - cu o temă de unitate temperatura, iar a doua - relația termodinamică cunoscută dintre energia liberă, energia medie și entropia: F = E - TS, valabilă pentru ansamblul canonic de echilibru în punctul staționar al algoritmului EM (tot cu T = ) Rețineți că, ca orice altă metodă de învățare cu gradient, algoritmul EM converge la un minim local, care nu coincide neapărat cu cel global Analogia fizică este blocată într-o stare de energie metastabilă Aceasta sugerează o metodă naturală de recoacere, adică introducerea unei temperaturi efective și scăderea treptată a acesteia la T = pentru a crește probabilitatea atingerii minimului global [Ueda și Nakano, ] BAZELE ÎNVĂȚĂRII MAȘINI În capitolul , vom întâlni din nou principiul minimizării energiei libere când discutăm despre algoritmii de învățare în cortexul cerebral După cum înțelegem acum, această formulare este strâns legată de învățarea bayesiană În concluzie, în această secțiune am luat în considerare conceptele de bază ale teoriei învățării Am arătat că optimizarea comportamentului (adică, minimizarea erorilor) se realizează prin predicție statistică folosind modele - reprezentări comprimate ale modelelor identificate în date Cu cât puteți comprima mai mult datele, cu atât puterea predictivă a modelului este mai mare Abordarea bayesiană a învățării este o strategie pentru extragerea secvențială a informațiilor din date, bazată pe primele principii ale teoriei probabilităților Modelul de generare a datelor în interpretarea bayesiană este reprezentat de un ansamblu de ipoteze Orice etapă de învățare mărește cunoștințele noastre despre un astfel de model Este precedat de un ansamblu a priori de ipoteze, iar rezultatul este un ansamblu a posteriori de ipoteze care modelează mai exact datele Predicțiile modelului implică o medie pe acest ansamblu În același timp, calitatea predicțiilor ansamblului este mai mare decât calitatea predicțiilor pentru cea mai bună ipoteză Ansamblul posterior optim corespunde probabilității maxime a datelor (Dovezi) Am discutat, de asemenea, consecvența regularizării bayesiene cu principiul lungimii minime a descrierii datelor și, prin urmare, relația abordării bayesiene cu minimizarea erorii de generalizare neobservabile, deoarece există rezultate puternice că o scădere a lungimii descrierii datelor este însoțită de o scăderea erorii de generalizare În cele din urmă, am descris un algoritm specific de învățare care implementează potrivirea regularizării bayesiene Acest algoritm este utilizat în mod activ în învățarea profundă modernă, în special în așa-numita autoencodere variaționale O vom întâlni când discutăm despre modul în care cortexul nostru învață în capitolul Învățare supravegheată: recunoașterea modelelor În secțiunile următoare, trecem de la teoria generală la tipuri specifice și algoritmi de învățare Vom vedea că algoritmii de învățare pot fi extrem de simpli Cu atât mai surprinzătoare vor fi rezultatele următoarelor capitole, unde vom vedea cum pot fi rezolvate probleme complexe prin rețele neuronale artificiale și naturale prin simpla scalare a actelor de învățare elementară Sarcina noastră imediată este să înțelegem semnificația fizică a acestor acte elementare de învățare, să analizăm algoritmii de învățare de bază folosind exemplul celor mai simple sisteme de învățare Există trei tipuri principale de învățare în literatură: supravegheată, nesupravegheată și consolidată Fiecare dintre ele are propriile sale caracteristici și domenii de aplicare Cu toate acestea, după cum vom vedea, ele se bazează pe aceleași principii generale În secțiunile următoare, vom lua în considerare secvențial enunțurile problemei corespunzătoare și modalitățile de a le rezolva Învățare supravegheată: recunoașterea modelelor Până acum, nu am specificat cum arată datele D și modelele H utilizate pentru antrenament De exemplu, arborii de decizie sau mașinile vectoriale suport sunt utilizate pe scară largă în practică Cu toate acestea, recent, învățarea automată a fost dominată de așa-numita rețelele neuronale artificiale, datorită unora dintre avantajele lor incontestabile, despre care vor fi discutate mai târziu Cu ei, vom începe cunoștințele noastre cu modele specifice de învățare automată În capitolele următoare, vom analiza modul în care această abstractizare matematică corespunde prototipurilor sale biologice Deocamdată, ne vom interesa de teoria învățării automate a rețelelor neuronale artificiale și de proprietățile matematice ale unor algoritmi specifici BAZELE ÎNVĂȚĂRII MAȘINI Astăzi, marea majoritate a aplicațiilor practice ale învățării automate sunt asociate cu cel mai simplu tip de învățare - cu un profesor (învățare supravegheată), adică conform setului de date de intrare și de ieșire D = {xQ, ya} (de exemplu, o imagine și un simbol al clasei sale de membru) De regulă, sunt utilizate rețele formate din multe straturi succesive de neuroni Această arhitectură poate accelera semnificativ calculele folosind acceleratoare GPU matrice care funcționează în paralel cu toți neuronii fiecărui strat Pentru început, ne vom limita la cel mai simplu tip de rețele multistrat care nu au feedback între straturi - rețele feedforward sau perceptroni (Fig ) În general, astfel de rețele rezolvă problema aproximării funcțiilor multidimensionale, i e construirea de mapări multidimensionale f : x y generalizarea unui set dat de exemple D În funcție de tipul variabilelor de ieșire (tipul de variabile de intrare nu este critic), aproximarea funcțiilor poate lua forma • clasificare (set discret de valori de ieşire) sau • regresii (valori de ieşire continue) Multe probleme practice de recunoaștere a modelelor, filtrarea zgomotului, predicția serii de timp etc sunt reduse la aceste formulări de bază În ciuda simplității lor aparente, perceptronii sunt aproximatori universali pentru care există algoritmi de învățare foarte eficienți Ei își datorează popularitatea acestor două calități Învățare supravegheată: recunoașterea modelelor Orez Neuron artificial (stânga) și perceptron multistrat Clasificator de neuroni Este mai convenabil să începeți să studiați posibilitățile perceptronilor multistrat cu proprietățile componentei sale principale, un singur neuron Un neuron artificial este cel mai simplu dispozitiv de recunoaștere a modelelor care transformă un vector caracteristic de intrare într-un răspuns scalar în funcție de o combinație liniară de variabile de intrare: WjXj + Wq Memoria locală a unui neuron este reprezentată de greutățile sinaptice ale acestuia, selectând pe care îl puteți regla neuronul pentru a recunoaște modele specifice Aici și mai jos, presupunem că fiecare neuron are o intrare unică suplimentară cu indice zero = Acest lucru va simplifica expresiile prin tratarea tuturor greutăților sinaptice ale neuronului wj, inclusiv pragul wq, într-un singur mod BAZELE ÎNVĂȚĂRII MAȘINI Ieșirea scalară a unui neuron poate fi folosită ca așa-numit funcţie discriminantă Acest termen din teoria recunoașterii modelelor este numit indicator de apartenență a vectorului de intrare la una dintre clasele date Deci, dacă vectorii de intrare pot aparține uneia dintre cele două clase, neuronul este capabil să distingă tipul de intrare, de exemplu, după cum urmează: dacă / (x) > , vectorul de intrare aparține primei clase, în caz contrar - la al doilea Deoarece funcția sa discriminantă depinde doar de o combinație liniară de intrări, neuronul este un discriminator liniar În unele situații cele mai simple, un discriminator liniar este cel mai bun posibil, și anume, în cazul în care probabilitățile de apartenență la diferite clase de vectori de intrare sunt date de distribuții gaussiene În acest caz, granițele care separă regiunile în care probabilitatea unei clase este mai mare decât probabilitățile celorlalte constau din hiperplane Funcțiile de activare monotone /(•) pot fi alese astfel încât să interpreteze ieșirile neuronilor ca probabilități de apartenență la clasa corespunzătoare, ceea ce oferă informații suplimentare în clasificare Deci, se poate arăta că în cazul distribuțiilor de probabilitate gaussiene menționate mai sus, funcția de activare sigmoidă a neuronului f(a) = i + exp(-a) dă probabilitatea de apartenență la clasa corespunzătoare Perceptroni multistrat Capacitățile discriminatorului liniar sunt foarte limitate Este capabil să rezolve corect doar o gamă limitată de probleme - atunci când clasele de clasificat sunt separabile liniar, de exemplu pot fi separate printr-un hiperplan (vezi Figura ) Într-un spațiu d-dimensional, un hiperplan poate împărți în mod arbitrar doar d+I puncte De exemplu, pe un plan, trei puncte pot fi împărțite în mod arbitrar în două clase, dar patru - în cazul general, nu mai este posibil Învățare supravegheată: recunoașterea modelelor Orez Seturi de puncte separabile liniar (stânga) și inseparabile liniar Poate sa În cazul unui avion, acest lucru este evident din ceea ce este arătat în Fig exemplu, pentru un număr mai mare de dimensiuni - rezultă din considerații combinatorii simple Dacă există mai mult de d + puncte, există întotdeauna modalități de a le împărți în două clase care nu pot fi făcute folosind un singur hiperplan Cu toate acestea, acest lucru poate fi realizat cu mai multe hiperplanuri Pentru a rezolva astfel de probleme de clasificare mai complexe, este necesară complicarea rețelei prin introducerea unor straturi suplimentare de neuroni (se numesc ascunși), care efectuează procesarea intermediară a datelor de intrare, astfel încât neuronul clasificator de ieșire să primească seturi deja separabile liniar ca intrări Mai mult, se poate arăta că, în principiu, te poți descurca întotdeauna cu un singur strat ascuns care conține un număr suficient de mare de neuroni Într-adevăr, o creștere a stratului ascuns crește dimensiunea spațiului în care neuronul de ieșire produce o dihotomie, care, așa cum sa menționat mai sus, îi facilitează sarcina Cu toate acestea, pentru a aproxima funcții suficient de complexe folosind un astfel de perceptron cu două straturi, poate fi necesar În special, s-a dovedit că un strat ascuns de neuroni cu o funcție de activare a sigmoidului este suficient pentru a aproxima orice graniță de clasă sau pentru a aproxima orice funcție cu o precizie arbitrar de mare, dacă numărul de neuroni din stratul ascuns este suficient cu siguranta mare BAZELE ÎNVĂȚĂRII MAȘINI să vă fie frică de mulți neuroni exponențial într-un singur strat ascuns Este mult mai economic să crești numărul de straturi Cu același număr de neuroni, astfel de rețele neuronale profunde pot reprezenta funcții mult mai complexe decât perceptronii plat cu două straturi Și anume, varietatea funcțiilor Q reprezentate de perceptronii multistrat cu intrări d-dimensionale depinde în principal de numărul de straturi ascunse N și, într-o măsură mult mai mică, de "lățimea" acestora H (numărul de neuroni din stratul ascuns): Q ~ HNd (În cazul neuronilor liniari pe bucăți, ca în Fig , diversitatea este definită ca numărul de fețe liniare pe bucăți ale mapării corespunzătoare perceptronului A se vedea pentru detalii ) Cu toate acestea, avantajele rețelelor neuronale profunde au fost descoperite cu puțin peste ani în urmă și au fost puse în practică relativ recent (vezi capitolul ) Înainte de aceasta, au fost utilizate rețele cu un număr mic de straturi, în principal pentru că complexitatea computațională a antrenamentului, după cum vom vedea, crește dramatic odată cu dimensiunea rețelei neuronale Din punct de vedere istoric, primii perceptroni, propuși de Frank Rosenblatt în , aveau două straturi de neuroni Cu toate acestea, doar al doilea strat era de fapt cursanți Primul strat (ascuns) era format din neuroni cu greutăți aleatorii fixe Aceștia, conform terminologiei lui Rosenblatt, neuronii asociați au primit semnale de la puncte selectate aleatoriu ale câmpului receptor În acest spațiu caracteristic, perceptronul a efectuat discriminarea liniară a imaginilor de intrare (vezi Fig ) Interesant este că așa pare să fie construit cerebelul nostru (vezi capitolul ), care își face față cu succes sarcinilor datorită unui număr gigantic de neuroni asociați (aproximativ de miliarde) Ele formează un astfel de spațiu caracteristic în care imaginile destul de complexe devin separabile liniar Învățare supravegheată: recunoașterea modelelor Greutăți (reglabil) Intrare Unități Sensoy Rezultate sumare asociere units unit unit Orez Perceptronul lui Rosenblatt a folosit funcții de ieșire de prag [Rosenblatt, ] Rosenblatt a prezentat rezultatele cercetărilor sale în în cartea Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms Deja de la numele însuși se poate simți cât de multă importanță a fost acordată acestui dispozitiv de învățare relativ simplu Creierul, desigur, este mult mai complex Dar meritul lui Rosenblatt este că a demonstrat mai întâi capacitatea rețelelor neuronale de a învăța folosind algoritmi foarte simpli, bazați pe biologic Cu toate acestea, primii perceptroni erau departe de capacitățile cerebelului, iar gama de sarcini rezolvate de perceptronii lui Rosenblatt a fost foarte limitată În absența teoriei, a fost imposibil să se determine perspectivele de utilizare practică a perceptronilor Acest tip de teorie a apărut până în odată cu publicarea cărții Perceptrons de Minsky și Papert, care le-a dezvăluit limitările fundamentale S-a dovedit că unele clase de probleme, cum ar fi determinarea conectivității formelor, necesită un număr exponențial de mare de neuroni asociați BAZELE ÎNVĂȚĂRII MAȘINI Această carte a servit drept "duș rece" pentru pasionații timpurii de învățare automată, iar finanțarea în acest domeniu a fost înghețată pentru o lungă perioadă de timp Adevărata cale de ieșire a fost creșterea numărului de straturi ascunse din elementele adaptive, de exemplu selectați greutățile tuturor straturilor rețelei neuronale Cu toate acestea, în acel moment, ei nu au putut să facă acest lucru Între timp, există modalități simple și destul de eficiente de a selecta ponderile rețelelor neuronale multistrat pe baza învățării în gradient Învățare cu gradient: backpropagation Orice hărți de configurare a rețelei neuronale /(w): x y Când învățăm cu un profesor, cunoaștem eșantionul de instruire {xa,yQ} care conține exemple de clasificare corectă Prin urmare, pentru orice set de greutăți sinaptice, eroarea rețelei neuronale L(w) este determinată pe un set de antrenament dat Atunci când eroarea funcțională este dată și problema este redusă la minimizarea acesteia, se poate propune o procedură simplă iterativă de selecție a ponderii, de exemplu: wr+ = wT - ifdL/dw Aici rf este rata de învățare la pasul m Se poate demonstra că prin scăderea treptată a ratei de învățare, de exemplu, conform legii ty -oc /m, procedura descrisă mai sus duce la găsirea unui minim local al erorii Din punct de vedere istoric, cea mai mare dificultate pe drumul către antrenamentul eficient al perceptronilor multistrat a fost cauzată de procedura de calcul a gradientului funcției de eroare âL/âw Faptul este că eroarea de rețea este determinată de ieșirile sale, adică este direct legată doar de stratul de ieșire al balanței Întrebarea a fost cum se determină eroarea neuronilor din straturile ascunse pentru a găsi derivați în raport cu ponderile corespunzătoare Ceea ce era nevoie a fost o procedură pentru transferul unei erori de la nivelul de ieșire la Învățare supravegheată: recunoașterea modelelor straturile anterioare ale rețelei, în direcția opusă procesării informațiilor de intrare Prin urmare, o astfel de metodă, atunci când a fost găsită, a fost numită metoda de backpropagation (ergo backpropagation sau pur și simplu backpropagation pe scurt) Cheia antrenării rețelelor neuronale multistrat s-a dovedit a fi utilizarea funcțiilor de activare diferențiabile, pentru care rețeta de găsire a derivaților în raport cu orice greutate a rețelei este dată de așa-numita regulă de diferențiere în lanț, cunoscută oricărui boboc Esența metodei de backpropagation este implementarea efectivă a acestei reguli Să analizăm mai detaliat această metodă cheie pentru învățarea automată Să notăm intrările neuronilor celui de-al n-lea strat cu j" Neuronii acestui strat calculează combinațiile liniare corespunzătoare: și treceți-le la stratul următor, trecând printr-o funcție de activare neliniară (pentru simplitate, aceeași): Pentru a construi un algoritm de învățare, trebuie să cunoaștem derivata erorii pentru fiecare dintre ponderile rețelei: dL dL da(tm) dwfj daf dwfj ~ lXj' Astfel, contribuția la eroarea totală a fiecărei greutăți este calculată local, prin simpla înmulțire a reziduului neuronului Frank Rosenblatt a folosit o funcție de activare treptă nediferențiabilă în perceptronul său Poate că acesta este ceea ce l-a împiedicat să găsească un algoritm de învățare eficient, deși termenul de backpropagation în sine se întoarce la încercările sale de a-și generaliza regula de a învăța un neuron într-o rețea multistrat Cu toate acestea, nu a reușit și a murit tragic, incapabil să suporte o depresie severă după publicarea cărții de Minsky și Papert și reducerea lucrărilor asupra perceptronilor Cine știe, dacă Rosenblatt ar fi folosit o funcție de activare a sigmoidului în loc de una în trepte, poate că soarta lui s-ar fi dovedit altfel BAZELE ÎNVĂȚĂRII MAȘINI d- la valoarea intrării corespunzătoare Din această cauză, în cazul în care greutățile sunt schimbate în direcția celei mai rapide coborâri wij oc dL/dwij = - iXj, o astfel de regulă de învățare se numește regulă delta Intrările fiecărui strat sunt calculate secvenţial de la primul la ultimul strat în timpul propagării semnalului direct: iar reziduurile fiecărui strat sunt calculate în timpul propagării inverse a erorii de la ultimul strat (unde sunt determinate de ieșirile rețelei) la primul: j Importanța algoritmului de backpropagation de mai sus este că oferă o modalitate extrem de eficientă de a găsi gradientul funcției de eroare âL/âw Dacă notăm numărul total de greutăți din rețea cu W, atunci numărul de operații necesare pentru a calcula gradientul crește proporțional cu W, adică acest algoritm are complexitatea O(IY) Dimpotrivă, calculul direct al gradientului prin formulă BL b(w" +e)-£(wg) dw(tm)-e ar necesita W rulări directe prin rețea, fiecare necesitând operații O(țy) - un total de operațiuni O(W ), ceea ce este semnificativ mai rău decât algoritmul de backpropagation Învățarea cu gradient poate utiliza gradienții de eroare âL/âw în moduri diferite Învățare supravegheată: recunoașterea modelelor Cea mai simplă modalitate de a folosi un gradient în antrenament este schimbarea greutăților proporțional cu gradientul - așa-numita metodă de coborâre cu cea mai abruptă: L Această metodă, totuși, se dovedește a fi extrem de ineficientă în cazul în care derivatele în raport cu ponderi diferite sunt foarte diferite, adică relieful funcției de eroare nu seamănă cu o groapă, ci cu o râpă lungă (Aceasta este o situație destul de comună când modulele unor greutăți sunt mult mai mari decât ) În acest caz, pentru a reduce fără probleme eroarea, este necesar să alegeți o rată de învățare foarte mică dictată de derivata maximă (lățimea râpei), în timp ce distanța până la minim este determinată în ordinea mărimii de derivata minimă ( lungimea râpei), ceea ce încetinește semnificativ învățarea În plus, oscilațiile apar în mod inevitabil chiar în fundul râpei, iar învățarea își pierde proprietatea atractivă a monotonității erorii descrescătoare Cea mai simplă îmbunătățire a metodei celei mai abrupte de coborâre este introducerea momentului /i, când influența gradientului asupra modificării greutăților se acumulează în timp: g t g t- dw = -ті -h zidw C W Calitativ, influența momentului asupra procesului de învățare poate fi explicată astfel Să presupunem că gradientul se modifică lin, astfel încât pentru o vreme modificarea lui poate fi neglijată (suntem departe de fundul râpei) Apoi, modificarea greutăților poate fi scrisă ca: gm dL z \ T] L iw ~ + +"') = ~G^L? acestea în acest caz, rata efectivă de învățare crește, și semnificativ, dacă momentul " Dimpotrivă, lângă fundul râpei, când se schimbă direcția gradientului BAZELE ÎNVĂȚĂRII MAȘINI din cauza oscilațiilor descrise mai sus, rata efectivă de învățare încetinește la o valoare apropiată de q: GBP / \ = âw( " + " " d] dL + aw' Un avantaj suplimentar al introducerii impulsului este capacitatea algoritmului de a depăși minime locale mici Această proprietate poate fi văzută prin scrierea ecuației diferențelor pentru învățare ca o ecuație diferențială Apoi, învățarea prin metoda cea mai abruptă de coborâre va fi descrisă prin ecuația de mișcare a unui corp într-un mediu vâscos: (Lw/dr = -ryâL/âw Introducerea unui moment corespunde apariţiei inerţiei într-un asemenea corp ipotetic, adică mase: jjÂ^vr/dr + ( - p^dw/dr = - r]dL/dw Ca urmare, având "accelerat", poate, prin inerție, să depășească mici minime locale ale erorii, blocându-se doar în minime relativ profunde, semnificative Unul dintre dezavantajele metodei descrise este introducerea unui alt parametru de reglare /i Situația ideală este atunci când toți parametrii de învățare sunt ajustați în timpul procesului de învățare, extragând informații despre natura ameliorării funcției de eroare din procesul de învățare în sine Exemple de astfel de algoritmi adaptativi cu impuls sunt ADAM, RMSPropp, Adadelta Toate sunt utilizate pe scară largă în practică Regularizarea antrenamentului Mai sus, am atins deja subiectul alegerii unui model de complexitate optimă Modelele prea simple nu sunt capabile să reflecte în mod adecvat modelele din date și sunt de asemenea Învățare supravegheată: recunoașterea modelelor cele complexe au o putere predictivă slabă, adaptându-se doar la un set specific de date de antrenament cu toate fluctuațiile sale aleatorii - își amintesc detalii în loc de modele Pentru modelele de rețele neuronale, această problemă este foarte relevantă, în special pentru rețelele neuronale moderne suficient de mari, care vor fi discutate în capitolul următor La urma urmei, nu știm dinainte cât de complexe sunt datele pe care trebuie să le modelăm și, prin urmare, ce dimensiune a rețelei să alegem pentru o anumită sarcină O soluție de mult cunoscută, practic, general acceptată la această problemă este regularizarea parametrilor de reglare a rețelelor neuronale, adică impunându-le unele restricții suplimentare, restrângând efectiv clasa de funcții disponibile [Bishop, ] Regularizarea se reduce la adăugarea unui termen suplimentar la funcția de eroare empirică, care nu este legat de date, dar reflectă complexitatea modelului rețelei neuronale Cele mai frecvent utilizate regularizări L și L sunt: L(w) L(w) + A| |w| |і = L(w) + |wj|, i L(w) L(w) + A||w||i = L(w) + I wt , i unde sumele sunt preluate pe toți parametrii de tuning ai rețelei neuronale Ecuațiile pentru învățarea în gradient a rețelei în aceste cazuri sunt: wT+ = wl - rfdL/dwi - A|wi|/wi, wgt + \u d wl - rfdL / dwi - Awi Vedem că în ambele cazuri, regularizarea duce la apariția unei "forțe" suplimentare care tinde să se reducă BAZELE ÎNVĂȚĂRII MAȘINI amplitudinea greutăților rețelei neuronale Numai în primul caz, această forță este constantă, iar în al doilea, scade odată cu scăderea parametrului de setare În consecință, L -regularizarea este mai rigidă: toți parametrii care afectează eroarea sunt mai mici decât un anumit nivel de prag și dispar, de exemplu rețeaua se subțiază Rețelele rare sunt folosite, de exemplu, în dispozitivele mobile, deoarece acestea pot reduce semnificativ consumul de calcul și energie [Han, Mao et al , ] Regularizarea b este mai blândă și este capabilă de o reglare mai fină a complexității modelului Desigur, le puteți folosi pe ambele dacă doriți Cele mai bune rezultate, conform lui Han, Pooi et al , , sunt obținute prin aplicarea alternativă iterativă a regularizării L și L , ceea ce face posibilă reducerea numărului de parametri de rețea cu un ordin de mărime fără pierderi aproape fără pierderi de precizie Complexitatea învățării în gradient Pentru a avea cel puțin o idee aproximativă a costurilor de calcul asociate antrenamentului, prezentăm o estimare calitativă a complexității computaționale a învățării în gradient Fie, ca întotdeauna, W numărul de parametri de reglare a rețelei (greutăți) și Af numărul de exemple de antrenament Apoi, pentru un singur calcul al gradientului funcției de eroare âL/âw prin metoda retropropagarii erorii, sunt necesare operații de aproximativ MW Numărul de iterații necesare pentru a găsi minimul din astfel de informații locale crește, de asemenea, proporțional cu dimensiunea spațiului parametrilor în care se caută minimul Această rată de convergență, iterațiile O(W), o au cei mai buni algoritmi de ordinul întâi, cum ar fi metoda gradientului conjugat Alternativ, în metodele de ordinul doi se poate găsi minimul în pașii ( ), dar numai folosind valorile W ale valorii locale Învățare supravegheată: recunoașterea modelelor hessian În ambele cazuri, estimarea complexității învățării rețelei este С ~ MW operațiuni Pentru o bună învățare, complexitatea modelului W trebuie să corespundă mărimii eșantionului de antrenament M Deci complexitatea învățării în gradient se dovedește a fi proporțională cu cubul numărului de greutăți! O astfel de complexitate de calcul este prohibitivă În realitate, puteți utiliza estimări aproximative ale gradientului pentru un număr mic de exemple În această aproximare, așa-numitul În optimizarea stocastică, gradientul la fiecare iterație este estimat din t ~ IO-j-lOO exemple aleatorii din setul de antrenament (mini-bat cii), iar învățarea rămâne pătratică în numărul de greutăți: C~mbW ( , ) dw dL(w) dt dw Orez Complexitatea învățării în gradient este pătratică în ceea ce privește numărul de parametri de reglare a rețelei Pentru sarcini destul de complexe, cum ar fi viziunea automată sau traducerea automată, rețelele cu sute de milioane și chiar miliarde de parametri de reglare sunt folosite astăzi Antrenarea unor astfel de rețele mari este posibilă numai cu Hessian H este matricea W x W a derivatelor secunde ale funcției L(w) BAZELE ÎNVĂȚĂRII MAȘINI optimizare stocastică suspină Și chiar și atunci, complexitatea computațională pătratică a învățării pentru ei este atât de mare încât necesită acceleratoare matrice speciale (GPU) O adevărată descoperire în învățarea automată ar putea fi algoritmii care sunt liniari în ceea ce privește numărul de parametri de reglare Acest lucru este posibil dacă ne complicăm treptat modelul, în loc să rătăcim de la un punct de pornire aleatoriu pe întregul spațiu de caracteristici pentru o perioadă lungă, lungă de timp Vom vorbi despre asta mai detaliat în capitolul Învățare nesupravegheată: comprimarea informațiilor Să trecem acum la un alt tip de învățare - fără profesor (învățare nesupravegheată sau auto-supravegheată), când eșantionul de instruire constă din date neetichetate D = {xa} și rețeaua își formează în mod independent ieșirile, adaptându-se la semnalele care ajung la ea intrări Această situație este mult mai frecventă în viața practică, când trebuie să procesați fluxuri de date brute Desigur, copiii învață ei înșiși să distingă câinii de pisici, mamele îi ajută doar să numească corect clasele corespunzătoare Într-adevăr, informațiile de intrare, de regulă, conțin mult mai multe informații decât cele de ieșire De exemplu, în viziunea artificială, avem imagini vizuale megabyte la intrare, iar la ieșire - seturi de clase de obiecte recunoscute cu o diversitate maximă de două duzini de biți (dacă vorbim de milioane de clase) În consecință, se pot învăța multe în modul de auto-învățare, de exemplu, prin prezicerea unor părți ale informațiilor de intrare Prin urmare, unul dintre părinții fondatori ai învățării automate, Jan LeKun, a asemănat învățarea nesupravegheată cu un tort de ziua de naștere acoperit cu un strat subțire de glazură de învățare supravegheată Am încercat deja glazura, e timpul să ne ocupăm de baza prăjiturii Învățare nesupravegheată: comprimarea informațiilor Rezumatul datelor: prototipuri de sarcini Ca și înainte, învățarea implică minimizarea unor funcționalități țintă Sarcina unui astfel de funcțional formează scopul, în conformitate cu care rețeaua realizează transformarea informațiilor de intrare În absența unui astfel de "profesor" al rețelei, doar datele în sine pot servi, adică informațiile pe care le conțin, modelele care disting datele de intrare de zgomotul aleatoriu Doar o astfel de redundanță face posibilă găsirea unei descriere mai compactă a datelor, care, conform principiului general, oferă o înțelegere a datelor empirice În practică, rețelele adaptive comprimă informațiile prin codificarea informațiilor de intrare cu codul cel mai compact sub anumite constrângeri Lungimea descrierii datelor este proporțională, în primul rând, cu lungimea cuvântului de date b, care determină varietatea de valori pe care le acceptă (de exemplu, reprezentarea numerelor pe sau de biți) și, în al doilea rând, cu datele dimensiunea φ, adică numărul de componente ale vectorilor de intrare xa În consecință, se pot distinge două tipuri limitative de codare, folosind metode opuse de comprimare a informațiilor: • reducerea dimensiunii datelor cu pierderi minime de informații (De exemplu, analiza componentelor principale, selecția de seturi de caracteristici independente ); • reducerea diversității datelor prin selectarea unui set finit de prototipuri și atribuirea datelor unuia dintre ele (Clusterizarea datelor, cuantificarea informațiilor de intrare continue ) De asemenea, este posibil să combinați ambele tipuri de codare De exemplu, metoda hărților de auto-organizare (sau hărțile Kohonen - după omul de știință finlandez care le-a propus) este foarte bogată în aplicații, atunci când prototipurile în sine sunt ordonate într-un spațiu cu dimensiuni reduse De exemplu, datele de intrare pot fi mapate la o rețea D ordonată BAZELE ÎNVĂȚĂRII MAȘINI qO O ° J Ooo°°С% ° Orez Două tipuri de compresie a informațiilor Reducerea (stânga) vă permite să descrieți datele cu mai puține componente Clustering sau cuantificare (dreapta) reduce diversitatea datelor prin reducerea numărului de biți necesari pentru a le descrie prototipuri astfel încât să devină posibilă vizualizarea datelor multidimensionale Ca și în cazul perceptronilor, este mai bine să începeți să studiați un nou tip de învățare cu cea mai simplă rețea formată dintr-un singur neuron Indicator neuron: învățarea conform Hebb Să luăm în considerare ce posibilități de procesare adaptivă a datelor are un singur neuron și cum este posibil să se formuleze regulile de învățare a acestuia Datorită localității algoritmilor de rețele neuronale, această regulă de bază poate fi apoi extinsă cu ușurință la rețelele mai multor neuroni În cea mai simplă setare, un neuron cu o ieșire și d intrări este antrenat pe un set de date d-dimensionale D = {xa} Aici ne limităm la antrenarea rețelelor cu un singur strat, pentru care neliniaritatea funcției de activare nu este fundamentală Prin urmare, putem simplifica considerația limitându-ne la o funcție de activare liniară Ieșirea unui astfel de neuron este o combinație liniară a intrărilor sale: Învățare nesupravegheată: comprimarea informațiilor d y = ^wjxj=wx J=i Amplitudinea acestei ieșiri după antrenament adecvat poate servi ca un indicator al cât de bine se potrivește o anumită intrare eșantionului de antrenament Cu alte cuvinte, un neuron poate deveni un indicator că informația de intrare aparține unui grup dat de exemple Algoritmul de învățare pentru un neuron-indicator individual este local prin necesitate, adică se bazează numai pe informații disponibile direct neuronului însuși - valorile intrărilor și ieșirilor acestuia Acest algoritm, propus de canadianul Donald Hebb în , conține, ca la embrion, proprietățile de bază ale auto-organizării rețelelor neuronale Potrivit lui Hebb [Hebb, ], modificarea greutăților unui neuron atunci când este prezentată cu al-lea exemplu este proporțională cu intrările și ieșirile sale: wJ = riyTXj, sau sub formă vectorială: wr = T]ut'xt Dacă formulăm învățarea ca o problemă de optimizare, vedem că un neuron de învățare Hebbian tinde să crească amplitudinea ieșirii sale: ( =-| , unde media se efectuează pe eșantionul de antrenament {xQ} Amintiți-vă că învățarea supravegheată, dimpotrivă, s-a bazat pe ideea de a reduce abaterea medie pătrată de la standard În absența unui standard, nu există nimic de minimizat: reducerea la minimum a amplitudinii ieșirii ar duce doar la o scădere a sensibilității ieșirilor la valorile intrărilor Maximizarea amplitudinii, dimpotrivă, face ca neuronul să fie cât mai sensibil posibil la diferențele de informații de intrare, de exemplu îl transformă într-un indicator util BAZELE ÎNVĂȚĂRII MAȘINI Diferența indicată în scopul instruirii este de natură fundamentală, întrucât nu există o eroare minimă L(w) în acest caz Prin urmare, învățarea după Hebb în forma în care este descrisă mai sus nu este aplicabilă în practică, deoarece duce la o creștere nelimitată a amplitudinii greutăților Acest neajuns, totuși, poate fi eliminat pur și simplu prin adăugarea unui termen care împiedică creșterea ponderilor: wJ = yut(x] - yTWj), sau sub formă vectorială: wT \u d g / ut (xt - î / tw) ( , ) Acest lucru poate fi ușor verificat prin echivalarea modificării medii a ponderilor la zero Înmulțind apoi partea dreaptă cu w, vedem că în echilibru: = (y } ( - |w| ) Astfel, greutățile neuronului antrenat sunt situate pe hipersferă: |w| = , ca prezentat în Fig Orez Învățare constrânsă Hebbian: vectorul de greutate al neuronului este poziționat pe hipersferă într-o direcție care maximizează proiecția vectorilor de intrare Rețineți că acest algoritm de învățare este în esență echivalent cu regula delta, doar inversat de la intrări la ieșiri (adică, cu x - y) Neuronul, așa cum spune, încearcă să reproducă valorile intrărilor sale pentru o ieșire dată Astfel, o astfel de formare urmărește să maximizeze sensibilitatea singurului indicator la care iese Învățare nesupravegheată: comprimarea informațiilor informații de intrare multidimensionale, fiind un exemplu de compresie optimă a informațiilor Aceeași situație poate fi descrisă în alt mod Imaginați-vă un perceptron cu un neuron (aici, liniar) pe stratul ascuns, în care numărul de intrări și ieșiri este același, iar ponderile cu aceiași indici în ambele straturi sunt aceleași Vom învăța acest perceptron să reproducă valorile ieșirilor sale în stratul de ieșire (Fig ) În acest caz, regula delta pentru învățarea stratului superior (și, prin urmare, a celui inferior) va lua forma ( ): wj cx ut (xt - xt) = yt (xt - î/tw) X-^ xd Y \u d W X t * Xd Xl Xd Orez Echivalența algoritmului Oya cu antrenarea unei rețele cu un neuron în stratul ascuns folosind metoda de backpropagation Astfel, există o anumită paralelă între rețelele de auto-învățare și așa-numitele rețele autoasociative în care profesorul pentru ieșiri sunt valorile intrărilor Acest tip de rețele neuronale cu blocaj sunt, de asemenea, capabile să comprima informații Interacțiunea neuronilor: analiza componentelor principale Un singur neuron efectuează compresia finală a informațiilor multidimensionale, evidențiind doar o caracteristică scalară BAZELE ÎNVĂȚĂRII MAȘINI caracteristicile datelor multidimensionale Indiferent cât de optimă este compresia informațiilor, rareori este posibil să se caracterizeze complet datele multidimensionale cu o singură caracteristică Cu toate acestea, prin creșterea numărului de neuroni, informațiile de ieșire pot fi mărite În această secțiune, generalizăm algoritmul de învățare găsit mai devreme în cazul mai multor neuroni dintr-un strat de auto-învățare, pe baza analogiei cu rețelele auto-asociative menționate mai sus Deci, acum să fie antrenați m neuroni liniari pe același set de date d-dimensionale {xa}: Ui - WijXj - Wi • X, r = , , m Ne dorim ca amplitudinile neuronilor de ieșire să fie un set de indicatori independenți care să reflecte cât mai complet informații despre intrarea multidimensională a rețelei Dacă pur și simplu punem câțiva neuroni în stratul de ieșire și antrenăm fiecare dintre ei în mod independent, vom obține doar duplicarea multiplă a aceleiași ieșiri Evident, pentru a obține mai multe caracteristici semnificative la ieșire, regula originală de învățare trebuie modificată într-un fel - prin includerea interacțiunii dintre neuroni În interpretarea noastră a algoritmului de învățare pentru un neuron individual, acesta din urmă încearcă să reproducă valorile intrărilor sale prin amplitudinea ieșirii sale Generalizând această observație, ar fi logic să propunem o regulă conform căreia valorile intrărilor să fie restaurate din toate informațiile de ieșire Urmând această linie de raționament, obținem algoritmul Oja pentru învățarea unei rețele cu un singur strat [Oja, ]: sau sub formă vectorială: JwJ- = yyl (хт - yțyvk) ■ Învățare nesupravegheată: comprimarea informațiilor Orez Echivalența algoritmului Oya cu învățarea unei rețele auto-asociative cu gât de sticlă prin metoda backpropagation Acest antrenament este echivalent cu o rețea de blocaj de m neuroni liniari ascunși antrenați să scoată valorile intrărilor sale (Figura ) Stratul ascuns al unei astfel de rețele, precum stratul Oia, realizează codificarea optimă a datelor de intrare și conține cantitatea maximă de informații posibilă în condițiile restricțiilor date Capacitatea rețelelor neuronale de a identifica în mod independent cele mai semnificative caracteristici ale fluxurilor de informații, învățând după reguli locale foarte simple, este importantă pentru înțelegerea algoritmilor de învățare a creierului Cu toate acestea, există un sens practic în algoritmii de învățare descriși mai sus? Într-adevăr, în aceste scopuri există algoritmi de analiză statistică standard bine cunoscuți În special, analiza componentelor principale evidențiază, de asemenea, caracteristicile principale, realizând compresia liniară optimă a informațiilor Mai mult, se poate demonstra că comprimarea informațiilor de către stratul Oia este echivalentă cu analiza componentelor principale Acest lucru nu este surprinzător, deoarece ambele metode sunt optime sub aceleași constrângeri Mai precis, ieșirile rețelei Oya sunt combinații liniare ale componentele principale BAZELE ÎNVĂȚĂRII MAȘINI Cu toate acestea, analiza standard a componentelor principale oferă soluția în mod explicit, printr-o secvență de operații cu matrice, și nu iterativ, ca în cazul algoritmilor de rețele neuronale Deci, în practică, este adesea mai convenabil să folosiți metode matrice, decât să antrenați rețele neuronale Există vreun sens practic în algoritmii iterativi de rețele neuronale de mai sus? Desigur, există, din cel puțin două motive: • În primul rând, uneori instruirea trebuie făcută online, de ex adaptați-vă la fluxul de date în schimbare din mers Un exemplu este lupta împotriva interferențelor non-staționare în canalele de comunicare Metodele iterative sunt ideale în această situație, când nu este posibilă adunarea întregului set de exemple și efectuarea operațiunilor matriceale necesare asupra acestuia; • în al doilea rând, și acesta este aparent principalul lucru, neuroalgoritmii sunt ușor de generalizat în cazul compresiei neliniare a informațiilor, când nu mai există soluții explicite Nimeni nu ne împiedică să înlocuim neuronii liniari din rețelele descrise mai sus cu neuroni neliniari Cu modificări minime, algoritmii de învățare vor funcționa și în acest caz, găsind întotdeauna compresia optimă sub constrângerile pe care le-am impus Astfel, neuroalgoritmii sunt un instrument convenabil pentru analiza neliniară, care face relativ ușor să găsești modalități de a comprima profund informațiile și de a extrage caracteristici non-triviale Uneori, chiar și o simplă înlocuire a funcției de activare liniară a neuronilor cu una sigmoidă în regula de învățare găsită mai sus lecturi: $wi = 'pNUi') I xm - \ La Învățare nesupravegheată: comprimarea informațiilor conduce la o nouă calitate - capacitatea de a separa semnalele amestecate într-un mod necunoscut (Blind Signal Separation) [Oja și Karhunen, ] Fiecare dintre noi trebuie să rezolve această problemă atunci când dorim să evidențiem discursul unei persoane în zgomotul unei conversații generale Cu toate acestea, nu ne interesează aici algoritmi specifici, ci mai degrabă principiile generale pentru extragerea caracteristicilor semnificative, asupra cărora este logic să ne oprim mai detaliat Analiza componentelor principale neliniare O demonstrație clară a utilității analizei componentelor principale neliniare este un exemplu simplu în Fig Orez Analiza componentelor principale produce un subspațiu liniar care minimizează variația datelor (stânga) Cu toate acestea, nu este în măsură să dezvăluie natura unidimensională a distribuției datelor în cazul din dreapta Parametrizarea lor unidimensională necesită coordonate neliniare În cazul general, ne interesează transformarea neliniară y = f(w, x), f : Rrf -> Rm, (m maxZ(x, y) Aici Z(x, y) R(x) + R(y) - R(x, y) = R(x) - R(x|y) este informația reciprocă a variabilelor aleatoare x, y În acest caz, această sarcină este rezolvată prin metoda de backpropagation Există, totuși, o abordare mai elegantă și mai economică a compresiei neliniare a datelor Este posibil să găsim în mod constant reprezentări din ce în ce mai comprimate ale datelor, strat cu strat, bazate pe primele principii ale teoriei informației Scopul nostru este să găsim o reprezentare care să "explice" cât mai mult posibil toate dependențele existente între diferitele componente ale datelor de intrare Cantitativ, gradul de interdependență al componentelor datelor determină așa-numitul corelație totală (corelație totală): TC(x) = ^H(^)-H(x) i Aceasta este o valoare nenegativă egală cu zero numai dacă toate componentele datelor de intrare sunt independente unele de altele Cu cât valoarea TC(x) este mai mare, cu atât mai multe oportunități pentru compresia datelor Comprimarea datelor folosind modelul generativ P(x|y) este măsurată prin corelația totală condiționată: TC(x|y)=£nYy)-H(x|y) i Cu cât este mai mic, cu atât sunt mai multe relații ascunse în datele pe care modelul nostru le captează Modelul explică toate dependențele din date dacă TC(x|y) - În acest caz, modelul de generare a datelor degenerează: P(x|y) = Pg P(xi |y)? adică toate componentele de date sunt generate independent una de cealaltă Deci, în fig alocarea unei coordonate unghiulare determină în mod unic ambele coordonate x BAZELE ÎNVĂȚĂRII MAȘINI Vom căuta un model de explicație a datelor în care fiecare componentă a lui y ar servi ca o sursă independentă de date, de exemplu TC(y) = (funcția obiectivă uzuală a analizei componentelor independente) Astfel, am dori să minimizăm: min [ TC(x|y) + TC(y)], acestea explicați toate dependențele posibile atât în date, cât și în reprezentarea lor De aici și denumirea metodei: Explicația corelației totale [Steeg, ] Important este că putem trece dincolo de un strat și putem continua să creștem rețeaua strat cu strat, astfel încât reprezentarea datelor în stratul anterior să fie intrarea în următorul Fiecare strat explică o nouă parte a dependențelor, contribuind la compresia datelor Referințe la algoritmi specifici de învățare pot fi găsite în [Steeg, ] Aici ne mărginim să afirmăm că sunt foarte eficiente, în special, pot avea o complexitate liniară în numărul de parametri ai modelului [Steeg și Galstyan, ], depășind semnificativ învățarea în gradient a rețelelor autoasociative, care are complexitate pătratică În această secțiune, am găsit reprezentări ale datelor în care activările neuronilor individuali din straturi au fost cât mai necorelate posibil Între timp, este posibil să se propună schema de codificare opusă, cu corelarea maximă a ieșirilor De exemplu, un neuron cu cea mai mare putere poate suprima activitatea altor neuroni din strat Activitatea unui astfel de neuron câștigător crește la unu, iar activitatea neuronilor rămași scade la zero Astfel de straturi competitive de neuroni pot fi folosite și pentru a comprima informații, dar această compresie se va baza pe principii complet diferite Învățare nesupravegheată: comprimarea informațiilor Competiția neuronilor: clustering La începutul acestei secțiuni, am menționat două modalități principale de reducere a redundanței: reducerea dimensiunii datelor și reducerea diversității datelor pentru aceeași dimensiune Până acum, am vorbit despre prima metodă Să trecem acum la al doilea Această metodă implică alte reguli de învățare a neuronilor În algoritmii de învățare Hebbian și derivati din ei, activitatea neuronilor de ieșire tinde să fie cât mai independent unul de celălalt posibil Dimpotrivă, în învățarea competitivă, pe care o luăm în considerare acum, ieșirile rețelei sunt corelate maxim: pentru orice valoare a intrării, activitatea tuturor neuronilor, cu excepția așa-numiților neuron-winner este același și egal cu zero Acest mod de funcționare al rețelei se numește "câștigătorul ia tot" Neuronul câștigător (cu indicele r*), diferit pentru fiecare vector de intrare, va servi drept prototip al acestui vector Prin urmare, câștigătorul este ales astfel încât vectorul său de greutate w**, definit în același spațiu d-dimensional, să fie mai aproape de vectorul de intrare dat x decât toți ceilalți neuroni: |w^* - x| |wî* • x|, Vg Ieșirea unui astfel de neuron este amplificată la unitate, iar restul este suprimată la zero Numărul de neuroni din stratul competitiv determină varietatea maximă de ieșiri și este selectat în conformitate cu nivelul necesar de detaliu al informațiilor de intrare Rețeaua antrenată poate clasifica apoi intrările: neuronul câștigător determină cărei clase îi aparține vectorul de intrare dat Spre deosebire de învățarea supervizată, autoînvățarea nu implică atribuirea a priori a structurii clasei Vârsta de intrare BAZELE ÎNVĂȚĂRII MAȘINI Tori ar trebui împărțit în categorii (clustere), în concordanță cu modelele interne ale datelor în sine Aceasta este sarcina de a antrena stratul competitiv al neuronilor Algoritmul de bază pentru antrenarea stratului competitiv rămâne neschimbat: deoarece sarcina rețelei a rămas, de asemenea, aceeași - să reflecte informațiile de intrare în ieșirile rețelei cât mai precis posibil Diferența apare doar din cauza noului mod de codificare a informațiilor de ieșire În stratul competitiv, doar un neuron câștigător are o ieșire diferită de zero (unică) În consecință, în conformitate cu regula scrisă mai sus, numai ponderile sale sunt ajustate la prezentarea acestui exemplu, iar pentru câștigător, regula de învățare are forma: = ri(xT -Wj*) Algoritmul de învățare de bază descris mai sus este de obicei ușor modificat în practică, deoarece el, de exemplu, admite existenţa aşa-zisului neuroni morți care nu câștigă niciodată și, prin urmare, sunt inutili Cel mai simplu mod de a evita apariția lor este să alegeți vectori de intrare selectați aleatoriu în eșantionul de antrenament ca valori inițiale ale greutăților Această metodă este bună și pentru că, cu un număr suficient de mare de prototipuri, contribuie la o încărcare egală a tuturor neuronilor prototip Aceasta corespunde maximizării entropiei ieșirilor în cazul stratului competitiv În mod ideal, fiecare dintre neuronii stratului competitiv ar trebui să devină câștigător la fel de des, astfel încât ar fi imposibil a priori să se prezică care dintre ei va câștiga dacă vectorul de intrare este selectat aleatoriu din setul de antrenament Învățare nesupravegheată: comprimarea informațiilor Cea mai rapidă convergență este asigurată de modul de învățare pe lot, când ponderile sunt modificate numai după prezentarea tuturor exemplelor În acest caz, incrementele pot fi făcute nu mici prin plasarea greutății neuronului la pasul următor imediat în centrul de greutate al tuturor vectorilor de intrare legați de celula acestuia Un astfel de algoritm converge în iterații ( ) După ce a scris regula de învățare competitivă sub formă de gradient: ( w) = -ryâL/âw, este ușor de observat că minimizează abaterea pătratică a vectorilor de intrare de la prototipurile lor - ponderile neuronilor câștigători: b = |Eіх"-"?і - A Cu alte cuvinte, rețeaua realizează gruparea datelor: găsește astfel de prototipuri medii care minimizează eroarea de amplificare a datelor Dezavantajul acestei variante de clustering este evident - "impunerea" numărului de clustere egal cu numărul de neuroni În mod ideal, rețeaua în sine ar trebui să găsească numărul de clustere corespunzător grupării efective de vectori din eșantionul de antrenament Selecția adaptivă a numărului de neuroni este realizată de algoritmi ceva mai complecși, cum ar fi, de exemplu, creșterea gazului neuron Ideea acestei din urmă abordări este de a crește în mod constant numărul de neuroni prototip prin "împărțirea" acestora Eroarea totală a rețelei poate fi scrisă ca suma erorilor individuale ale fiecărui neuron: L=^ Lk = l, Ix" - wfc| - La Este firesc să presupunem că neuronii înconjurați de prea multe exemple și/sau având o celulă prea mare vor avea cea mai mare eroare Astfel de neuroni sunt, în primul rând, candidați pentru "mugurire" BAZELE ÎNVĂȚĂRII MAȘINI DESPRE O O O O Orez Diviziunea neuronului cu eroare maximă în "gazul neural în creștere" Straturile de concurență ale neuronilor sunt utilizate pe scară largă pentru cuantizarea datelor (cuantificare vectorială), care diferă de gruparea doar într-un număr mare de prototipuri Aceasta este o metodă foarte comună de comprimare a datelor în practică Cu un număr suficient de mare de prototipuri, distribuția de densitate a greutăților stratului competitiv aproximează bine densitatea reală de distribuție a vectorilor de intrare multidimensionali Spațiul de intrare este împărțit în celule care conțin vectori legați de același prototip Mai mult, aceste celule (numite celule Dirichlet sau celule Voronoi) conțin aproximativ același număr de exemple de antrenament Astfel, în același timp, eroarea grosieră este minimizată și informațiile de ieșire sunt maximizate datorită încărcării uniforme a neuronilor Comprimarea datelor în acest caz este realizată datorită faptului că fiecare prototip poate fi codificat cu mai puțini biți decât vectorii de date corespunzători Dacă există m prototipuri, doar log m biți sunt suficienți pentru a identifica oricare dintre ele, în loc de bd biți care descriu un vector de intrare arbitrar Una dintre opțiunile de modificare a regulii de bază pentru antrenamentul stratului competitiv este antrenarea nu numai a neuronului câștigător, ci și a "vecinilor", deși într-un ritm mai lent Această abordare - "tragerea" neuronilor cel mai aproape de câștigător - este folosită în hărțile de auto-organizare ale lui Kohonen Datorită marii importanţe practice Învățare nesupravegheată: comprimarea informațiilor a acestei arhitecturi de rețea neuronală, să ne oprim asupra ei mai detaliat Hărți autoorganizate Până acum, neuronii din stratul de ieșire au fost neordonați: poziția neuronului câștigător în stratul de competiție nu are nimic de-a face cu coordonatele greutăților sale în spațiul de intrare Se dovedește că, cu o ușoară modificare a învățării competitive, se poate realiza ca poziția unui neuron în stratul de ieșire să se coreleze cu poziția prototipurilor în spațiul multidimensional al intrărilor de rețea: valori similare de intrare vor corespunde neuronilor apropiați Acest lucru face posibilă construirea de hărți auto-organizate (Self-Organizing Maps), care sunt extrem de utile pentru vizualizarea informațiilor multidimensionale De obicei, pentru aceasta se folosesc straturi competitive sub formă de grile bidimensionale Această abordare combină cuantificarea datelor cu maparea de reducere a dimensionalității Și acest lucru se realizează cu un singur strat de neuroni, ceea ce facilitează foarte mult învățarea În , omul de știință finlandez Toivo Kohonen a propus introducerea informațiilor despre locația neuronilor în stratul de ieșire în regula de bază a învățării competitive [Kohonen, ] Pentru a face acest lucru, neuronii stratului de ieșire sunt ordonați, formând grile uni sau bidimensionale Adică, acum poziția neuronilor într-o astfel de rețea este marcată cu indicele vectorial i Această ordonare introduce în mod natural o distanță între neuroni |i - j| într-un strat Regula de învățare competitivă modificată de Kohonen ia în considerare distanța neuronilor față de neuronul câștigător: \u d uL (|i - i*I) (xm - Wj) Funcția de vecinătate L (|i - i*|) este egală cu unu pentru neuronul câștigător cu indice i* și scade treptat cu distanța, BAZELE ÎNVĂȚĂRII MAȘINI de exemplu, conform legii A(a) = exp(-a /cr ) Atât rata de învățare tu, cât și raza de interacțiune a neuronilor scad treptat în timpul procesului de învățare, astfel încât în etapa finală a învățării revenim la regula de bază de adaptare a greutăților numai neuronilor câștigători Spre deosebire de dinamica de învățare "asemănătoare unui gaz", cu ajustarea individuală a prototipurilor (greutățile neuronilor), învățarea Kohonen seamănă cu întinderea unei grile elastice de prototipuri pe un set de date din setul de antrenament Pe măsură ce rețeaua este antrenată, elasticitatea rețelei crește treptat pentru a nu interfera cu reglarea fină finală a greutăților Orez O hartă D cu auto-organizare a unui set de date multidimensionale Fiecare punct din spațiul multidimensional cade în propria sa celulă grilă, care are coordonatele celui mai apropiat neuron de pe harta bidimensională Ca urmare a unui astfel de antrenament, obținem nu numai cuantizarea intrărilor, ci și ordonarea informațiilor de intrare sub forma unei hărți bidimensionale (Fig ) Fiecare vector multidimensional are propria sa coordonată pe această grilă, iar cu cât coordonatele a doi vectori de pe hartă sunt mai apropiate, cu atât sunt mai aproape de spațiul original O astfel de hartă topografică auto-organizată oferă o reprezentare vizuală a structurii datelor într-un spațiu de intrare multidimensional a cărui geometrie nu o putem imagina altfel Învățare nesupravegheată: comprimarea informațiilor Vizualizarea informațiilor multidimensionale este principala aplicație practică a hărților Kohonen În plus, acești algoritmi de auto-organizare ne ajută să înțelegem principiile învățării corticale (vezi capitolul ) Rețineți că hărțile auto-organizate păstrează relația de proximitate doar local: zonele apropiate de pe hartă sunt, de asemenea, apropiate în spațiul original, dar nu invers (Fig ) În cazul general, nu există o cartografiere care să reducă dimensiunea și să păstreze relațiile de proximitate la nivel global Orez Un exemplu de hartă unidimensională a datelor bidimensionale Săgeata arată zona de discontinuitate a afișajului: punctele apropiate din plan sunt mapate la capetele opuse ale hărții Așadar, în această secțiune, am văzut un tip important de învățare - nesupravegheat, extrem de util pentru lucrul cu seturi mari de date, atunci când nu este posibil să obțineți recenzii de la egal la egal pentru învățare cu un profesor Rețelele de auto-învățare sunt capabile să identifice modele în date, formând un spațiu de caracteristici relativ mic, fără de care recunoașterea modelelor de înaltă calitate este adesea imposibilă Astfel, ambele tipuri de învățare, cu și fără profesor, se completează cu succes În plus, așa cum am văzut în exemplul rețelelor de blocaj, există o relație puternică între aceste tipuri de învățare: dacă te uiți la situație BAZELE ÎNVĂȚĂRII MAȘINI dintr-un anumit punct de vedere, regulile de învățare corespunzătoare coincid uneori pur și simplu Rămâne să luăm în considerare un alt tip de învățare foarte important - cu întărire (învățare prin întărire), pe care același LeCun îl compară cu cireașa de pe "tortul de învățare automată", întrucât profesorul în acest caz nu sugerează răspunsul corect, dar încurajează elevul doar dacă găsește singur răspunsul Un exemplu de astfel de dresaj este dresajul animalelor Învățare prin întărire: Comportament Învățarea prin întărire este cea mai naturală setare a sarcinilor pentru ființele vii, în care viața însăși acționează ca un profesor, încurajând și pedepsind comportamentul incorect într-o varietate de moduri De fapt, vorbim despre formularea cea mai generală a problemei de învățare - dezvoltarea unui comportament adaptativ adecvat într-un mediu extern arbitrar Este această sarcină spre care ar trebui să vizeze viitorul sistem de operare a robotului, despre care vom discuta în continuare în capitolele și Complexitatea unei astfel de învățări este că succesele și eșecurile în acest moment se datorează întregii istorii anterioare și nu este clar care dintre acțiunile trecute și cum anume au influențat acest rezultat De exemplu, într-un joc de șah, doar rezultatul final al jocului servește drept întărire și nu se știe care mișcări din joc au fost corecte sau greșite Sarcina învățării este de a dezvolta o strategie optimă r(a|s), adică reguli pentru alegerea acțiunii a în situația s Rezultatul acțiunii a^ la momentul t este o trecere la o nouă situație s^+i cu armarea corespunzătoare rt Cu toate acestea, strategia optimă nu ar trebui să se concentreze pe întărirea imediată, ci ar trebui să maximizeze suma așteptată a tuturor întăririlor viitoare - valoarea Învățare prin întărire: Comportament R = unde st [=> Ф = (v - R) logTTe + (v - R) Ѳ I / \ (хххтггѵггсггѵг(уѵгѵ> = / t VSt+ " f (at>S^) $t t+l = f(at>st^) Orez Instruire pentru simularea mediului Această abordare este în general în concordanță cu arhitectura Dyna, de exemplu comportamentul agentului în lume este reactiv, ceea ce nu este deloc necesar Acest comportament este bun, de exemplu, când joci blitz Dar atunci când joci șah obișnuit, calitatea mișcărilor poate fi îmbunătățită semnificativ prin calcularea constantă a evoluției situației cu câteva mișcări înainte, dacă timpul o permite Așa se joacă cele mai bune programe de calculator din ziua de azi, antrenate cu metode de învățare prin întărire (vezi secțiunea ) Relația cu teoria controlului În ceea ce privește modelarea activității creierului și crearea unui psihic artificial de roboți și agenți software, arhitecturile rețelelor neuronale trebuie luate în considerare în contextul teoriei controlului Învățarea prin întărire poate fi considerată o evoluție a teoriei tradiționale de control Acesta din urmă, în mare măsură, s-a ocupat de două clase de sarcini: • controlul prin abateri de la o traiectorie dată, unde accentul s-a pus pe stabilitatea controlului feedback-ului Traiectoria optimă, de exemplu, a unui zbor de rachetă balistică, a fost calculată din modelul matematic corespunzător; Discuţie • gasirea traiectoriei procesului care optimizeaza functionalul dat De exemplu, optimizarea procesului de producție, dată de modelul de simulare adecvat și un sistem de diverse restricții În ambele cazuri, de regulă, au fost utilizate modele de procese controlate specificate extern Învățarea prin consolidare își ocupă nișa în teoria controlului - control adaptiv unde modelele proceselor controlate nu sunt cunoscute dinainte, iar aceste procese în sine se pot schimba în timp Comparațiile dintre controlul adaptiv inteligent și controlul tradițional sunt prezentate în fig , Plan: Control: Plan /(D) Fapt Orez Teoria tradițională a controlului varianței Discuţie Acest capitol introductiv a fost dedicat principiilor generale și algoritmilor de bază ai învățării automate Ne-am limitat aici doar la acele concepte de care vom avea nevoie pentru a înțelege conținutul capitolelor următoare Unele tipuri importante de rețele neuronale, cum ar fi rețelele recurente și convoluționale, vor fi tratate în capitolul următor Cu toate acestea, mulți BAZELE ÎNVĂȚĂRII MAȘINI Plan: Plan Control: Fapt Orez Management adaptiv cu învățare și planificare niem unele aspecte ale învățării automate vor rămâne în afara domeniului de aplicare al acestei cărți Celor care doresc să se familiarizeze mai profund cu subiectul li se poate recomanda o monografie clasică [Bishop, ] sau un manual tradus în rusă [Khaikin, ] - în această ordine Exemple de aplicații practice ale rețelelor neuronale pot fi găsite în cursul de curs [Ezhov și Shumsky, ], dintre care câteva fragmente le-am folosit în acest capitol În cele din urmă, au fost publicate recent cărți [Goodfellow et al , ; Nikolenko et al , ], mai aproape de realitățile moderne și anume de tema capitolului următor: deep learning capitolul Invatare profunda Nu s-au gândit suficient de profund și, prin urmare, sentimentul lor nu s-a scufundat până la fund Ridică-te, gând fără fund, din adâncurile tale Din adâncuri, cel mai înalt trebuie să ajungă la înălțimea lui Friedrich Nietzsche "Așa a vorbit Zarathustra" De la principiile generale ale învățării automate, este timpul să trecem la aplicarea lor practică Mai mult, aici, în domenii aplicate, are loc o adevărată revoluție în ultimii ani În ultimii - ani, multe probleme, precum recunoașterea vorbirii, viziunea computerizată, traducerea automată, care nu au fost rezolvate de zeci de ani, au fost practic rezolvate Astăzi, calitatea rezolvării acestor probleme de către mașini este comparabilă cu cea a unui om și continuă să se îmbunătățească în mod constant INVATARE PROFUNDA Acest lucru deschide posibilități largi pentru o gamă largă de aplicații practice, de la comunicarea în limbaj natural cu agenți inteligenți până la mașini autonome, drone și roboți Lumea roboților și a inteligenței artificiale s-a mutat brusc de la un viitor îndepărtat abstract la mâine și chiar astăzi Acest capitol este un fel de scurtă cronică a revoluției învățării profunde Vom descrie ce sarcini și prin ce metode au fost rezolvate, de ce exact acum și încotro este îndreptat astăzi vectorul de dezvoltare a industriei Revoluția învățării profunde Contextul revoluției Termenul "învățare profundă" a intrat în uz în comunitatea științifică în - , când trei echipe de cercetare conduse de Jeffrey Hinton [Hinton, Osindero și colab , ; Salakhutdinov și colab , ; Sutskever și Hinton, ], Yoshio Bengio [Y Bengio, Lamblin et al , ] și Jan LeCun [FJ Huang și colab , ; U Muller și colab , ] au făcut progrese impresionante în formarea rețelelor neuronale multistrat și au demonstrat importanța adâncimii , adică numărul de straturi ale rețelei neuronale Cu toate acestea, adevăratul boom al învățării profunde a început abia în , odată cu începerea migrării învățării automate la GPU, când algoritmii corespunzători au depășit în mod neașteptat toți concurenții simultan în multe domenii, inclusiv recunoașterea scrisului de mână chineză, imagini medicale, semne de circulație , și segmentarea imaginii [Cireșan, Giusti et al , , ; Cireșan, Meieg et al , ] Succesele convingătoare ale rețelelor profunde în recunoașterea imaginilor vizuale și a vorbirii au avut o rezonanță deosebită [Graves, Mohamed et al , ; Krizhevsky et al , ], precum și faptul că calitatea recunoașterii pe rețelele profunde a progresat constant și rapid [Schmidhuber, ] Revoluția învățării profunde Între timp, principalele "cai de bătaie" ale învățării profunde moderne sunt rețelele recurente cu memorie pe termen lung (LSTM) [Hochreiter, Ya Bengio et al , ; Hochreiter și Schmidhuber, ] și Convolutional Networks (CNN) [LeCun, Boser și colab , ] - au apărut cu mult înainte De ce acest subiect a "împușcat" doar recent? Motivul este banal - binecunoscuta lege a lui Moore, conform căreia la fiecare cinci ani puterea de calcul disponibilă crește cu aproximativ un ordin de mărime Și fiecare ordine următoare de reducere a costului calculelor ne permite să rezolvăm unele probleme inaccesibile anterior La un moment dat, relativ recent, sarcinile inteligenței artificiale senzoriale s-au dovedit a fi disponibile - recunoașterea modelelor cu o calitate comparabilă cu cea a unui om De aici strigătul public, tk a existat o oportunitate (și o amenințare!) de înlocuire în masă a oamenilor cu computere Mai mult, în ultimii ani, calculele au scăzut cu un ordin de mărime, la fel ca și capacitățile acestei inteligențe "nou-născute" Noi, oamenii, avem tendința să ne exagerăm abilitățile intelectuale și, într-adevăr, inteligența mașinilor este încă departe de a fi umană Dar măreția minții umane constă în natura sa socială, capacitatea de a folosi cunoștințele acumulate de miliarde de oameni care au trăit și trăiesc lângă noi Posibilitățile creierului uman în domeniul aceleiași inteligențe senzoriale sunt destul de comparabile cu alte animale La vedere suntem inferiori vulturii, la auz și miros suntem inferiori câinilor și așa mai departe Complexitatea inteligenței senzoriale poate fi estimată în ordinea mărimii La mamifere, este concentrat în neocortex, care este specializat în învățare profundă, adică formarea unei ierarhii de trăsături din ce în ce mai abstracte Acest lucru va fi discutat în Capitolul Precum și faptul că modulul de bază al neocortexului este o coloană care conține aproximativ neuroni IO Există mai multe astfel de coloane în neocortexul uman INVATARE PROFUNDA milion Deoarece fiecare neuron de coloană are un singur axon, o coloană poate fi conectată la maximum alte coloane Aceasta corespunde la zece miliarde de parametri de învățare W ~ IO , pe care îi adaptăm de-a lungul vieții În plus, principalul algoritm de învățare pentru rețelele neuronale artificiale moderne este optimizarea gradientului stocastic Complexitatea acestui algoritm crește pătratic cu numărul de greutăți de acord C ~ m^Ty , unde m ~ ~ - (conform ( )) În consecință, complexitatea antrenării unui intelect comparabil cu unul uman este С > ІО Acest lucru se aplică abilităților cognitive complexe - gândirea și vorbirea conștientă, unde este implicat aproape întreg cortexul (și nu numai) Dacă ne limităm la o clasă mai restrânsă de sarcini, de exemplu, recunoașterea imaginilor senzoriale, care ocupă doar anumite părți ale cortexului nostru (să zicem, / ), această estimare va scădea cu două ordine de mărime, respectiv Astfel, pentru a atinge nivelul uman în sarcinile de recunoaștere a modelelor, este necesar să se cheltuiască C > operațiuni Pe computerele vechi de de ani cu o performanță de ~ IO - IO FLOPS (Floating Point Operations Per Second), acest lucru ar dura cel puțin de ani Astăzi, sunt disponibile acceleratoare grafice (GPU) cu o performanță de ~ IO - FLOPS (vezi mai jos), iar acest timp a scăzut cu ordine de mărime, la zile Acesta este motivul pentru care tehnologiile binecunoscute pentru antrenarea rețelelor neuronale artificiale au "declanșat" chiar acum A fost nevoie doar de timp pentru a crește puterea de calcul și dimensiunea bazelor de date Pentru că rețelele neuronale profunde sunt "lacome" de ambele Esența învățării profunde Principalul avantaj al rețelelor neuronale profunde este capacitatea lor de a genera o ierarhie de reprezentări de date din ce în ce mai abstracte Fiecare strat următor al rețelei neuronale formează totul Revoluția învățării profunde caracteristici din ce în ce mai informative ale datelor de intrare, ca cele mai semnificative combinații de caracteristici ale nivelului anterior În consecință, cu cât o rețea neuronală are mai multe straturi intermediare, cu atât mai multe concepte abstracte poate opera și cu atât sarcinile mai complexe pe care le poate rezolva De exemplu, pentru a recunoaște scene din sarcinile de viziune artificială, evidențiind oameni, clădiri, mașini și mii de alte obiecte posibile din ele Înainte de apariția învățării profunde, problemele recunoașterii modelelor în diferite domenii au fost rezolvate în moduri diferite În fiecare domeniu, specialiștii își construiesc manual propriile seturi de caracteristici de zeci de ani Învățarea profundă a oferit o tehnică universală pentru construirea automată a abstracțiilor, ceea ce a condus la o descoperire pe toate fronturile simultan Astăzi, în viziunea artificială, și în recunoașterea vorbirii și în procesarea de text automată, de fapt, sunt folosite aceleași arhitecturi ale rețelelor neuronale profunde Sentimentul că "rețelele profunde sunt mai bune decât cele largi" există de mult timp, în special datorită reconstrucției arhitecturii multistrat a sistemului vizual de primate [Y Bengio, ; Y Bengio et al , ] Ulterior, avantajele rețelelor neuronale profunde au fost și ele fundamentate teoretic De exemplu, în [Raghu et al , ], este propusă o abordare destul de generală pentru compararea abilităților expresive ale diferitelor arhitecturi ale rețelelor neuronale În special, se arată că varietatea de funcții reprezentate de rețele neuronale cu N straturi ascunse cu H neuroni fiecare și intrări d-dimensionale crește ca O(HNd) (am menționat deja acest fapt mai devreme) Rezultă că, cu același număr de neuroni, cu cât este mai mare adâncimea rețelei, cu atât este mai mare puterea expresivă pe care o are Și această concluzie este destul de generală: complexitatea funcțiilor reprezentate de rețelele neuronale crește exponențial odată cu creșterea adâncimii, dar nu și a lățimii INVATARE PROFUNDA Tehnici de învățare profundă Deși antrenamentul prin metoda de backpropagation nu impune restricții asupra adâncimii rețelei neuronale, în practică nu a fost posibil să se antreneze rețele cu un număr mare de straturi pentru o lungă perioadă de timp Antrenamentul a fost instabil, pentru că Gradienții de eroare ale rețelei neuronale pentru greutățile stratului următor sunt exprimați în termeni de gradienți pentru greutățile stratului anterior, iar cu un număr mare de factori fără a lua măsuri speciale, ei tind fie la zero, fie la infinit Primele succese în formarea rețelelor neuronale profunde în - au fost asociate cu antrenamentul nesupravegheat strat cu strat al rețelelor neuronale profunde [Hinton, Osindero et al , ; FJ Huang şi colab , ; U Muller şi colab , ] Fiecare strat următor a format abstracții de ordin superior care "explica" cel mai bine (capabil să restabilească) semnalele stratului anterior, în mod similar cu Secțiunea Odată cu utilizarea abstracțiilor de ordin înalt, calitatea recunoașterii modelelor s-a îmbunătățit semnificativ A fost suficient pentru a completa clasificatoarele plate obișnuite deasupra rețelei neuronale de codare multistrat Cele mai bune rezultate au fost obținute atunci când întreaga rețea neuronală multistrat a fost reantrenată folosind metoda backpropagation, folosind o rețea neuronală antrenată anterior prin metode de învățare nesupravegheată ca aproximare inițială Această tehnică a făcut posibilă rezolvarea problemelor cu o cantitate relativ mică de date etichetate De-a lungul timpului, s-au acumulat baze de date etichetate destul de mari, cum ar fi ImageNet, și s-au găsit tehnici fiabile de stabilizare a învățării profunde care permit antrenamentul de backpropagation a rețelelor cu multe zeci și chiar sute de straturi Deci, nevoia de pre-antrenare strat cu strat a rețelelor neuronale profunde a dispărut Vom aminti câteva dintre aceste inovații În primul rând, s-a dovedit că în locul celui sigmoid, este mai bine să folosiți o funcție de activare a neuronului mai simplă - Rectified Linear Unit (ReLU): ReLU (x} - max (x, ), gradient Revoluția învățării profunde care nu dispare pe măsură ce intrarile cresc [Nair și Hinton, ] Mai mult, s-a dovedit că peisajul rețelelor neuronale profunde nu este plin de minime locale, ci de puncte de șa, în regiunea cărora învățarea gradientului încetinește [Brau și DS Dean, ] Cu toate acestea, rețelele neuronale profunde au fost antrenate cu succes folosind Stochastic Gradient Descent (SGD) sau SGD cu impuls, folosind mini-loturi de exemple la fiecare pas pentru a estima aproximativ gradientul de eroare [Sutskever, Martens et al , ] Stochasticitatea încorporată în SGD ajută la evitarea punctului de inflexiune și la găsirea unor minime mai plate cu o capacitate de generalizare mai bună [Keskar et al , ] În ultimii ani, au devenit foarte populare diverse variante de învățare adaptivă (RMSProp [Hinton, Srivastava și Swersky, ], Adam [Kingma și Ba, ] etc ), care au o convergență mult mai bună, deși la minime mai puțin plate decât un SGD simplu, care le poate afecta negativ capacitatea de generalizare [A S Wilson și colab , ] O practică comună în învățarea automată este normalizarea datelor de intrare S-a dovedit că antrenamentul mai stabil și mai rapid al rețelelor neuronale profunde se realizează prin normalizarea intrărilor neuronilor nu numai în intrare, ci și în straturile ascunse chiar în timpul antrenamentului Această tehnică este cunoscută sub denumirea de Normalizare a loturilor [loffe și Szegedy, ] Pentru loturi mici, statisticile intrărilor neuronilor pot varia semnificativ, ceea ce face antrenamentul dificil Ideea normalizării lotului este de a stabiliza statisticile de intrare Pentru a face acest lucru, semnalele normalizate sunt alimentate la intrările fiecărui neuron al rețelei: x = [x - E[x\)/y/Var[x\^ unde medierea este efectuată în fiecare mini-lot Pentru a nu reduce puterea expresivă a rețelei neuronale, normalizarea este însoțită de o transformare liniară a fiecărei intrări y = ^x + / , ai cărei parametri sunt relevați în procesul de învățare Statisticile de intrare staționare stabilizează întregul proces de învățare și pot accelera în mod semnificativ învățarea INVATARE PROFUNDA O altă idee simplă a făcut posibilă creșterea semnificativă a profunzimii și calității antrenamentului, și anume, introducerea conexiunilor de șunt între straturile rețelei neuronale În așa-numitul Rețele reziduale, transformarea obișnuită neliniară de la strat la strat F(x) este completată de o matrice de identitate fixă, i e suma intrării și ieșirii din stratul anterior este alimentată la intrarea stratului următor: F(x) + x Această modificare nu introduce niciun parametri suplimentari, dar simplifică semnificativ antrenamentul și îmbunătățește calitatea acestuia, deoarece vă permite să antrenați rețele neuronale foarte profunde (cu sute și chiar mii de straturi) [Ne et al , ] În , după ce abia a apărut, Residual Networks a arătat cele mai bune rezultate la diferite sarcini în ImageNet, CIFAR și alte competiții Cu cât rețelele neuronale profunde au mai multe straturi, cu atât capacitatea lor expresivă este mai mare și nivelul de abstractizare în procesarea datelor este mai profund Dar odată cu creșterea numărului de greutăți de tuning, crește și pericolul supraajustării, atunci când rețeaua se adaptează prea bine la setul de antrenament și își pierde capacitatea de generalizare Pe lângă metodele binecunoscute de regularizare a învățării (cum ar fi regularea L și L ), o tehnică relativ nouă cunoscută sub numele de abandon [Hinton, Srivastava, Krizhevsky et al , ] este utilizată pe scară largă în învățarea profundă, când fiecare mini -lotul este antrenat doar un subset aleatoriu al întregii rețele O parte din neuroni (să zicem, jumătate) este aruncată la întâmplare, ceea ce împiedică formarea de caracteristici inutil de complexe în timpul procesului de învățare Într-o rețea neuronală antrenată în acest mod, toate greutățile sunt apoi multiplicate cu un factor adecvat (în acest exemplu, , ) pentru a compensa creșterea numărului de neuroni în comparație cu versiunea subțiată a rețelei Rezultatul unei astfel de regularizări este ilustrat clar în Fig din [Srivastava et al , ] De ce sunt mii, în [Sonoda și Murata, ] vorbim deja despre rețele cu un număr infinit de straturi - o nouă direcție promițătoare în învățarea automată Revoluția învățării profunde Orez Îmbunătățirea acurateței recunoașterii modelelor folosind tehnica de regularizare a abandonului [Srivastava și colab , ] Abordarea bayesiană a antrenării rețelelor neuronale profunde, promovată în special de grupul lui Dmitry Vetrov, ajută nu numai la înțelegerea motivului eficacității tehnicii de abandon, ci și la găsirea parametrilor optimi de subțiere a rețelei [Moi-chanov și colab , ] Dezvoltarea acestor idei este subțierea adaptivă a rețelelor neuronale, o altă modificare a metodei de backpropagation: pe fiecare strat, rețelele neuronale salvează valorile de ieșire doar ale celor mai activi k neuroni de top, anulând ieșirile tuturor celor mai activi alții Autorii au numit astfel de antrenament efort minim backpropagation (meProp), realizând accelerarea antrenamentului de câteva zeci de ori fără pierderi semnificative de precizie [X Soare și DR-, ] INVATARE PROFUNDA Subiectul rețelelor neuronale extrem de rare merită o analiză separată Rețele extrem de rare După cum știm, conform ( ), complexitatea antrenării unei rețele neuronale crește pătratic odată cu numărul parametrilor de reglare a acesteia, iar pentru puterea de calcul disponibilă astăzi, numărul acestora nu poate depăși cu mult un miliard (a se vedea estimările corespunzătoare de mai jos) Aceasta nu este o cantitate mică, dar cantitatea de date disponibilă pe Internet este practic nelimitată și aș dori să pot antrena rețele mai complexe De exemplu, pentru a învăța o limbă pe un corpus de text de de miliarde de cuvinte, rețeaua neuronală trebuie să aibă un număr comparabil de parametri de reglare Într-adevăr, Google Blain a reușit să antreneze o rețea neuronală cu de miliarde de parametri de reglare pe un astfel de eșantion, îmbunătățind semnificativ calitatea modelelor de limbaj antrenate pe cantități mai mici de date [Shazeer et al , ] Așa că autorii au declarat că următorul lor obiectiv a fost să predea o limbă de trilion de cuvinte Pentru a face acest lucru, au dezvoltat o arhitectură specială de rețea neuronală, un amestec de experți, în care doar un subset foarte mic din această rețea gigantică funcționează la un moment dat, altfel antrenamentul ar fi o sarcină imposibilă chiar și pentru Google După cum se arată în fig , în funcție de context, rețeaua de dispecer conectează doar câțiva dintre experții disponibili la soluție, de exemplu, din , grărind astfel calculele de mii de ori În acest sens, trebuie menționate, de asemenea, evoluțiile interne, în special, rețelele neuronale ale trenurilor tensorilor propuse de Sergey Terekhov (vezi Fig ), care este o generalizare neliniară a descompunerii tensorilor trenului tensori Ideea este de a reprezenta o funcție neliniară arbitrară a multor variabile discrete /(d, I , • • •, id) ca o compoziție a unui număr mic dintr-un număr potențial foarte mare Revoluția învățării profunde Orez O rețea neuronală dintr-un comitet de experți plus o rețea de dispecer care conectează în orice moment doar cei mai competenți experți în acest context [Shazeer et al , ] un set de rețele neuronale, proprii pentru fiecare zonă de definire a funcției: /(th, th, ■ • ■, id) = Nid dV^ Aici Vik - vectori semantici corespunzători fiecărei variabile și - rețele neuronale elementare, proprii pentru fiecare valoare a variabilelor rsh, rn Ca urmare, ca și în cazul precedent, fiecare calcul specific al funcției / folosește o parte nesemnificativă din cunoștințele stocate în comitetul rețelelor neuronale elementare-"experți", doar aici experții selectați formează o rețea neuronală profundă corespunzătoare situație, lucrând nu separat, ci împreună Folosind această metodă, Svyaznoy calculează zilnic cererea estimată pentru zeci de mii de articole de mărfuri în toate punctele de vânzare cu amănuntul ale rețelei pentru fiecare zi a săptămânii din fiecare lună! Grupul lui Dmitry Vetrov a propus anterior o idee similară de a folosi descompunerea Tensor Tnair pentru o reprezentare comprimată a matricelor de conexiuni sinaptice între straturi - INVATARE PROFUNDA Orez Sus: Descompunerea trenului de tensori, reprezentând tensori prin compoziție matriceală [Oseledets, ] Jos: Tensor Train Neural Networks, reprezentarea unei funcții a multor variabile discrete prin compoziția rețelelor neuronale elementare [Terekhov, ] mi rețele neuronale [Novikov și colab , ] În acest caz, rețeaua este, de asemenea, subțiată efectiv, deoarece matricea de conexiune inițială în rețelele neuronale mari poate conține ordine de mărime mai mulți parametri decât descompunerea lui Tensor Train Cu compresia de la capăt la capăt a tuturor straturilor unei rețele neuronale convoluționale profunde (a se vedea mai jos) pentru recunoașterea imaginii, au obținut o comprimare de de ori a descrierii rețelei neuronale, pierzând în același timp doar % în acuratețea recunoașterii [Garipov et al , ] Hardware pentru învățare profundă Rețelele neuronale profunde moderne pentru probleme din lumea reală, antrenate pe date mari, de exemplu, pe milioane de fotografii, pot conține sute de milioane de greutăți de reglare Găsirea valorilor lor optime în cursul învățării profunde este o problemă inversă cu complexitate computațională pătratică: C ~ m^W , conform ( ) Revoluția învățării profunde Pentru W = , m& = obținem C ~ IO FLOP Pentru ca antrenamentul să fie măsurat în zile ІО sec), puterea de calcul trebuie măsurată în zeci de TFLOPS Rezultă că antrenarea unor astfel de rețele neuronale mari necesită hardware special Acestea pot fi grupuri de multe mii de nuclee CPU, ca în munca echipei Google Brain [J Dean și colab , ; Le, ], unde pentru prima dată a fost posibil să se antreneze o rețea neuronală cu mai mult de un miliard de greutăți, ceea ce a stabilit un alt record pentru acuratețea recunoașterii imaginilor pe ImageNet Cu toate acestea, o alternativă mult mai ieftină este oferită de procesoarele grafice (GPU) care sunt ascuțite pentru operațiuni vectoriale și care conțin sute și mii de nuclee pe un singur cip Nu ar fi o mare exagerare să spunem că toată învățarea profundă modernă se bazează pe utilizarea acceleratoarelor GPU Liderul pieței de GPU, NVIDIA, a văzut de la început potențialul învățării profunde și acum se poziționează ca furnizor principal de soluții de învățare profundă Datorită acestui fapt, în cei cinci ani de la începutul boom-ului deep learning, capitalizarea sa a crescut de zece ori, iar doar în s-a triplat Pentru antrenarea rețelelor neuronale și mai ales pentru utilizarea celor deja antrenate, nu este necesară o precizie specială Prin urmare, NVIDIA în modelele axate pe învățarea profundă va oferi În [Le, ], o rețea cu un miliard de greutăți a fost antrenată pe un cluster de de nuclee CPU timp de trei zile Adică, complexitatea învățării a fost С ~ ІО FLOPS - • sec ~ • FLOP în deplin acord cu ( ) De la munca de pionierat [Krizhevsky et al , ], în care antrenarea unei rețele neuronale profunde cu de milioane de greutăți a durat - zile folosind doar două carduri GPU GTX cu o performanță totală de TFLOPS Adică, complexitatea antrenamentului a fost C ~ • ІО FLOPS* • sec ~ ІО FLOP În , capitalizarea sa s-a dublat, ceea ce, de asemenea, nu este rău! Un titlu caracteristic zilelor noastre: "AI mănâncă software: NVIDIA îl alimentează" INVATARE PROFUNDA Setează moduri de calcul cu precizie trunchiată, dar cu performanțe mai mari În plus, după cum vom vedea mai jos, operațiile tensorale de multiplicare a matricei sunt foarte importante pentru rețelele profunde (în special rețelele convoluționale) Și în , în procesorul NVIDIA Tesla V , conceput special pentru antrenarea rețelelor neuronale profunde, acestea au fost încorporate în nucleul procesorului Ca rezultat, performanța maximă de , TFLOPS (FP ), TFLOPS (FP ) și TFLOPS (tensor) este atinsă pe un singur cip Din , Google participă și la cursa pentru hardware-ul de deep learning, pentru care inteligența mașinii este o prioritate absolută, dacă nu o misiune În , Google a anunțat a doua generație a acceleratorului său dedicat tensorului TPU v , cu o performanță maximă per cip de TFLOPS (tensor) Aceste acceleratoare sunt grupate în Pod-uri TPU v de de module, câte TPU-uri fiecare Performanța unui singur pod TPU v atinge , PFLOPS (~IO FLOPS), astfel încât să puteți antrena o rețea profundă cu sute de milioane de greutăți în doar câteva minute În , odată cu apariția TPU ѵ , performanța noului TPU ѵ Pods a crescut de ori (de patru ori mai mult decât de două ori mai mult de cipuri rapide), așa că acest timp a fost redus la zeci de secunde Și aceste acceleratoare sunt disponibile pentru toată lumea pentru închiriere în cloudul Google Compute! Rețele profunde recurente: vorbire și limbaj Trecând de la general la particular, ne întoarcem la luarea în considerare a diferitelor neuroarhitecturi și a claselor de probleme pe care le rezolvă În învățarea profundă modernă, două arhitecturi ale rețelelor neuronale ocupă un loc special: acestea sunt rețele recurente și convoluționale, care întruchipează ideile de invarianță în timp și spațiu și oferă descoperiri în recunoaștere și Rețele profunde recurente: vorbire și limbaj înțelegerea vorbirii și, respectiv, viziunea artificială Acestea și următoarele secțiuni le vor fi dedicate Rețelele de tip feedforward multistrat (perceptroni) sunt o conductă în care fiecare strat următor primește informații de la nivelul precedent, le prelucrează și le transmite celui următor Numărul de etape de procesare a semnalului de intrare coincide cu adâncimea rețelei neuronale În rețelele recurente, informațiile pot fi transmise nu numai în sus, ci și în jos, adică formează bucle închise De exemplu, ieșirile stratului n pot fi alimentate nu numai la stratul n + , ci și revenirea la stratul n ca parte a intrărilor sale: Do? \u d + V "y? i) Cu alte cuvinte, procesarea semnalului în rețelele recurente depinde de întreaga istorie trecută, adică aceste rețele au o memorie, mai exact, o memorie dinamică care nu este fixată în scalele sale sinaptice Rețelele recurente sunt adânci prin construcție Numărul de etape de procesare a semnalului în ele este fundamental nelimitat Chiar și o rețea cu un singur strat recurent poate fi derulată în timp, reprezentând-o ca o rețea feedforward cu multe straturi identice, fiecare dintre ele corespunzând următorului pas de timp Deoarece toate straturile sunt identice, putem vorbi despre invarianța în timp încorporată Acest lucru vă permite să creșteți profunzimea procesării fără o creștere corespunzătoare a numărului de parametri de rețea - o calitate foarte valoroasă pentru învățarea profundă Dar, din aceleași circumstanțe, nu este de mirare că problema instabilității învățării în gradient a afectat în primul rând rețelele recurente [Hochreiter, Ya Bengio et al , ] Și tocmai pentru ei a fost propusă soluția sa - arhitectura Long Short-Term Memory (LSTM) [Hochreiter și Schmidhuber, ] În LSTM, elementul principal Această lucrare este una dintre cele mai citate în domeniul învățării profunde - peste mii de referințe INVATARE PROFUNDA volumul este un model complicat al unui neuron - o celulă de memorie sau celulă de memorie (Fig ) Orez Celula de memorie este elementul principal al rețelelor LSTM În rețelele neuronale artificiale tradiționale, neuronii formali nu au memorie - ieșirea este o funcție a intrării sale curente Rețelele recurente stochează parțial memoria istoricului intrărilor lor într-o formă comprimată în activarea neuronilor stratului ascuns, dar această memorie se degradează rapid în timp (modelul memoriei pe termen scurt) Pentru a aminti evenimente dintr-un trecut mai îndepărtat, celulele de memorie din LSTM sunt înzestrate cu memorie pe termen lung (să își suprascrie în mod dinamic valorile datorită feedback-ului fiecărei celule de memorie cu propria sa ieșire) Dar această memorie poate fi ștearsă și actualizată prin semnale de la porțile de control (neuroni obișnuiți cu funcție de activare sigmoidă) Astfel, o celulă de memorie este un microcircuit elementar al mai multor neuroni convenționali antrenați conform algoritmilor convenționali (o variantă de retropropagare în timp desfășurată în timp) Detaliile acestui cip pot varia pentru diferite modele Rețele profunde recurente: vorbire și limbaj [Jozefowicz et al , ], dar ideea principală rămâne: o rețea recurentă gestionată de memorie pe termen lung, capabilă să învețe să rezolve probleme complexe de procesare a seriilor temporale LSTM-urile sunt convenabile prin faptul că pot funcționa cu serii temporale de orice durată Aplicația lor tipică este etichetarea seriilor temporale [Graves, Fernăndez et al , ] Ieșirea unei astfel de rețele este probabilitățile tuturor etichetelor posibile zl ale valorilor intrărilor sale Antrenamentul se realizează prin minimizarea funcționalității: L = - J^lnP (?|x) X,/ Această clasă de sarcini include, de exemplu, recunoașterea vorbirii, unde semnalul sonor este marcat cu foneme sau, în cele din urmă, cu text LSTM-urile au devenit populare tocmai după succesul lor convingător în recunoașterea și generarea vorbirii [Fan et al , ; Graves, Fernandez et al , ] Astăzi, toate serviciile similare ale celor mai mari platforme cloud de la Google, Microsoft, Apple, Amazon folosesc tehnologia LSTM Rețelele LSTM pentru probleme din lumea reală pot avea zeci de straturi de sute sau chiar mii de celule de memorie în fiecare De exemplu, Neural Speech Recognizer de la Google constă din straturi duble de LSTM (înapoi + înainte) cu de celule de memorie fiecare și conține milioane de greutăți [Soitau și colab , ] Calitatea recunoașterii vorbirii se îmbunătățește constant, iar astăzi a ajuns deja la nivelul uman (vezi Fig ) În loc de etichete, rețelele recurente pot prezice următoarele valori ale unei serii și, astfel, pot genera ele însele serii temporale sintetice De exemplu, generați texte [Graves, ] Prin urmare - alte aplicații populare ale rețelelor recurente profunde: traducere automată, adnotare automată și alte sarcini de prelucrare automată a cuvintelor (Procesarea limbajului natural, înțelegerea limbajului natural) rețele secvență-la-secvență (seq seq) Ele constau din două componente - encoder și de- INVATARE PROFUNDA Învățare automată Google Atingerea unei mai mari acurateții a cuvintelor, - % % £ % i fc % % Google Threshold for Human Accuracy Orez Precizia recunoașterii vorbirii automate a atins nivelul uman în codificator și, de obicei, lucrează cu propoziții individuale Sarcina codificatorului este de a reprezenta propoziția sub forma unui vector semantic de valori ale stratului de ieșire al rețelei recurente după procesarea propoziției Sarcina decodorului este de a extinde vectorul semantic primit într-o nouă propoziție în conformitate cu semnificația sa codificată Pentru sarcinile de traducere automată, propozițiile sunt codificate într-o limbă și decodificate în alta Utilizarea rețelelor LSTM multistrat a îmbunătățit dramatic calitatea traducerii automate Atât de mult încât pentru unele perechi de limbi s-a apropiat de nivelul uman (vezi Fig ) Deci, sistemele de traducere automată au trecut masiv la această tehnologie În special, din Google Translate a trecut la sistemul Google Neural Machine Translation [Y Wu, Schuster et al , ] Rețeaua neuronală corespunzătoare are straturi LSTM în decodor și encoder Mai mult, aceeași arhitectură este folosită pentru toate perechile de limbi Rețele profunde recurente: vorbire și limbaj (L Engleză Engleză Engleză Spaniolă limba franceza chinez Spaniolă limba franceza chinez Engleză Engleză Engleză traducere perfectă DESPRE Model de traducere Orez Acuratețea traducerii automate în trecut (pe bază de expresii) și în noile generații (neurale) de sisteme Pentru unele perechi de limbi, traducerea automată s-a apropiat de traducerea umană Aceeași arhitectură poate fi folosită pentru alte sarcini, de exemplu, pentru a adnota conținutul textului - pentru a repovesti textul cu propriile cuvinte, dar într-un mod mai scurt Astfel, în lucrarea [Yu et al , ] similar cu [Y Wu, Schuster et al , ] rețeaua, cu doar codoare și decodore LSTM cu și straturi, a fost instruită să repovesti paragrafe cu o lungime de până la de cuvinte în titluri scurte (până la cuvinte) care reflectă esența textului Rețelele recurente moderne folosesc pe scară largă mecanismul de atenție propus în [Bahdanau et al , ] Și anume, decodorul folosește ca intrare nu un singur vector de codificare final din encoder, ca înainte [Sutskever, Vinyals et al , ], ci întreaga secvență de vectori de codificare, în funcție de numărul de cuvinte din propoziția codificată Dar la fiecare iterație, decodorul se concentrează pe unele dintre elementele sale, în funcție de starea sa actuală Adică diverse elemente INVATARE PROFUNDA secvențele de vectori de codificare sunt ponderate în funcție de context (vezi figurile , ) I' accord sur [a zone econcmique europeenne a î I r I î I În ( în -> în -> în -* în •-* în -> în •-" în - A • A A A A ce dimensiune are sfera Pereche de obiecte cu întrebare, -MLP Orez Răspunsuri la întrebări Un CNN convoluțional profund codifică conținutul unei imagini, o rețea LSTM recurentă codifică conținutul unei întrebări, iar o rețea RN relațională este antrenată să genereze răspunsuri (mai bine decât un om [Santoro et al , ]) LSTM INVATARE PROFUNDA Astfel, rețelele neuronale pot nu numai să recunoască prezența și localizarea obiectelor în lumea exterioară, ci și să găsească tipurile abstracte de conexiuni de natură arbitrară care există între ele Conexiunile dintre obiecte pot fi determinate de legile fizice ale interacțiunii lor În acest caz, rețelele relaționale pot prezice dinamica scenei pe mai multe cadre consecutive (vezi Watters et al , ) Generarea de rețele: imaginație Viziunea automată, recunoașterea și înțelegerea vorbirii sunt exemple de inteligență senzorială, a cărei sarcină este de a înțelege semnalele primite, de a înțelege semantica acestora (sistemul de relații dintre subiecte și obiecte) Dar înțelegerea situației nu este un scop în sine Scopul final al inteligenței mașinii este un comportament creativ, bazat pe cunoștințele dobândite în procesul de învățare Vom discuta despre comportamentul adecvat puțin mai târziu Aici atingem creativitatea - capacitatea de a genera independent imagini ale lumii exterioare Această sarcină este mai dificilă decât clasificarea convențională Am atins deja o parte în parte când am vorbit despre traducerea automată, adică despre înțelegerea și repotarea independentă a sensului mesajului Spre deosebire de sarcinile de recunoaștere, aici învățarea automată nu a atins încă la nivel uman, deși se înregistrează progrese Complexitatea sarcinii stimulează inovația Aici ne uităm la una dintre cele recente, pe care Jan LeKun, șeful Facebook AI Research și unul dintre pionierii învățării profunde, a numit-o cea mai importantă descoperire din ultimii - de ani Vorbim despre învățare contradictorie și rețele generative de conflict (Ge- " cea mai bună și mai tare idee în învățarea automată din ultimii sau de ani " -https://www youtube com/watch?v=bub oYJTmO Generarea de rețele: imaginație Nerative Adversarial Networks, GAN) capabile să generalizeze și să reproducă imagini similare cu cele pe care au fost instruiți [Goodfellow et al , ] Ideea este de a antrena simultan două rețele neuronale jucând un joc cu sumă zero una împotriva celeilalte O rețea, generatorul, este antrenată să genereze imagini similare cu setul de antrenament Al doilea, discriminatorul, învață să le distingă de imaginile din eșantionul de antrenament Lucrând împreună, aceste rețele se antrenează reciproc (vezi Figura ) date sintetice T maximiza T ^ogD(X} + logp-D(G{z)-)] prctrenat D discriminator minimiza (; eu w £/Ml D(G(z)) generator mi zgomot aleatoriu date de antrenament P(datele sunt de la X) obiectivul DP(x) = , , nu se poate distinge între G sintetic și intrarea de antrenament X Orez Generating Competitive Learning Scheme [Goodfellow et al , ] Discriminatorul D determină probabilitatea D(x) ca imaginea de intrare x să aparțină distribuției X a eșantionului de antrenament În același timp, ar trebui să recunoască imaginile generate de generator ca fiind "reale" cât mai rar posibil, atribuindu-le o probabilitate redusă D(( (z)) Adică, sarcina discriminatorului D este de a-și optimiza parametrii astfel încât să-și maximizeze profitul: max (logD((r)) + log ( - P(C(r)))) INVATARE PROFUNDA Sarcina generatorului G este invers - de a minimiza câștigul discriminatorului D prin optimizarea parametrilor săi: min (log D(x) + log ( - D(( (z)))) -> min (log ( - D(( (z)))) GG (deoarece primul termen nu depinde de generator) Rețineți că generatorul învață să reproducă imagini fără să le vadă vreodată prototipurile Tot ce știe este cât de bine își distinge discriminatorul creativitatea de eșantionul de antrenament Deși enunțul original al problemei se referă la învățarea nesupravegheată, în GAN ambele rețele concurente învață folosind învățarea supravegheată și pot folosi toate realizările învățării profunde gradient De exemplu, utilizați rețele convoluționale profunde (Deep Convolutional GANs, DCGANs [Radford, Metz et al , ]) pentru a genera imagini realiste [Nguyen et al , ; N Zhang și colab , ] De exemplu, în fig Figura prezintă imagini pe tema "vulcani" generate de DCGAN instruit pe ImageNet [Nguyen et al , ] voisapo Orez Vulcani generați de GAN [Nguyen și colab , ] Generarea de rețele: imaginație Antrenamentul GAN are propriile provocări În special, pregătirea ambelor rețele trebuie să fie echilibrată Să spunem, dacă discriminatorul a învățat prea bine, eroarea sa tinde spre zero și nu mai generează semnale de antrenament pentru generator Au fost propuse mai multe abordări pentru a asigura o învățare echilibrată Autorii așa-zisului WGAN-urile [Arjovsky et al , ] au propus să "tăieze aripile" discriminatorului prin limitarea greutăților acestuia \wjo\ A' Aceasta este diferența dintre estimările recompensei așteptate după următorul punct în timp Deoarece estimarea ulterioară se presupune că este puțin mai precisă, putem defini următoarea procedură iterativă pentru găsirea funcției valorii, cunoscută sub numele de învățare prin diferență temporală (învățare TD): tt) ^^(s, (z) -|- a r + max Q(s/, r l r pz L = (s-s) vt = rt + vt+ perspectiva asupra naturii gândirii umane Dacă vă uitați, atunci ne-am întâlnit deja cu toate elementele acestui model standard (Fig ) Modelul comportamental, modelul lumii și blocul de calcul sunt învățare prin consolidare bazată pe model, cu imaginație încorporată (pentru a genera diferite scenarii pentru dezvoltarea evenimentelor) Blocul perceptiv este inteligența senzorială Un exemplu de unitate motorie este, de exemplu, sistemul de sinteză a vorbirii Google Tacotron , care generează vorbire care nu se poate distinge de cea umană [J Shen și colab , ] Cu alte cuvinte, toate elementele psihicului artificial într-o formă sau alta există deja astăzi și individual nu sunt inferioare abilităților umane corespunzătoare Acest lucru ne conduce la concluzia logică că următorul pas în dezvoltarea inteligenței mașinilor ar trebui să fie psihicul artificial al roboților Vector de dezvoltare: psihicul artificial Să rezumam scurta noastră digresiune istorică Datorită învățării profunde, nivelul de inteligență a mașinilor a crescut dramatic în ultimii - ani, în principal datorită INVATARE PROFUNDA Orez Teoria standard a inteligenței (Model standard pentru minte [Laird et al , ]) apariția capacităților supercomputerelor la prețuri accesibile Inteligența senzorială - viziunea automată și auzul - s-a apropiat deja de nivelul uman Mașinile au învățat nu numai să recunoască imaginile, ci și să le înțeleagă esența, să construiască modele abstracte ale obiectelor și ale relațiilor lor Mașinile au rudimentele imaginației - capacitatea de a genera imagini ale lumii exterioare în funcție de reprezentarea lor internă Mașinile pot învăța valori și comportament inteligent pe baza acestora, care vizează atingerea obiectivelor pe termen lung Mai mult, în lumile virtuale (de joc), ei demonstrează deja abilități supraomenești, care, în plus, progresează rapid odată cu creșterea în continuare a puterii computerului După cum puteți vedea din exemplele de mai sus, învățarea profundă utilizează un număr mic de idei de bază încorporate în mai multe arhitecturi populare de rețele neuronale Odată cu aprofundarea acestor idei de bază și îmbunătățirea algoritmilor corespunzători, există un număr tot mai mare de lucrări în care se rezolvă diverse probleme practice prin combinarea diverselor module de rețele neuronale Vedem clar Vector de dezvoltare: psihicul artificial dezvoltarea de noi circuite neuronale Ca să spunem așa, există o tranziție de la "biologie" la "psihologia" învățării automate, de la algoritmii de învățare la principiile arhitecturale ale construirii sistemelor funcționale Acest lucru este vizibil în special în domeniul inteligenței jocurilor și al roboticii, unde sarcina este de a dezvolta un comportament adecvat în lumea virtuală sau reală Acest lucru necesită munca coordonată a subsistemelor senzoriale, asociative, de planificare și control, care în viitor ar trebui să formeze un psihic artificial, un sistem de operare al roboților care va înlocui arhitectura von Neumann Calculatoarele Von Neumann sunt pasive Au fost create pentru a executa programele externe încorporate în ele Esența învățării automate, dimpotrivă, nu este execuția, ci generarea de programe Și acest lucru necesită o arhitectură complet diferită, forțând mașinile să învețe continuu și să-și sporească cunoștințele Psihicul artificial al roboților ar trebui să se bazeze pe motivația internă pentru învățarea constantă, pentru auto-stabilirea sarcinilor, căutarea activă și testarea ipotezelor "Spiritul este viața, care ea însăși tăie prin cei vii " - așa a spus Zarathustra Și numai în procesul de construire a acestui psihic artificial ne putem apropia în sfârșit de o înțelegere reală a propriului nostru psihic și a modului în care funcționează creierul nostru - subiectul următorului capitol capitolul Arhitectura computațională a creierului Ai făcut călătoria de la vierme la om, dar multe din tine sunt încă de la vierme Ai fost cândva o maimuță, și chiar și acum omul este mai maimuță decât orice altă maimuță Voința mea se lipește de om, mă leagă cu lanțuri de om, căci mă trage în sus, la supraom: cealaltă voință a mea se străduiește spre el Friedrich Nietzsche "Așa a vorbit Zarathustra" ARHITECTURA COMPUTAȚIONALĂ A CREIERULUI Program de cercetare: Brain Reverse Engineering Capitolul anterior demonstrează în mod convingător succesul rețelelor neuronale artificiale profunde în modelarea abilităților individuale ale creierului În domeniul recunoașterii modelelor și predării comportamentului rațional de joc, aceste abilități au ajuns deja sau chiar au depășit nivelul uman, ca, de exemplu, în cazul AlphaZero Dar puterea de calcul continuă să se înmulțească și să devină mai ieftină Și se pune întrebarea: ce se va întâmpla în continuare? Este logic să presupunem că următorul pas va fi trecerea de la rezolvarea problemelor individuale aplicate de recunoaștere a modelelor la crearea unor sisteme de control autonome capabile să învețe pe tot parcursul ciclului de viață, acumulând continuu cunoștințe despre subiect la o scară care acum este chiar greu de realizat imagina Dar legea lui Moore ne aduce tocmai la un astfel de scenariu - tranziția de la învățarea profundă la controlul profund, de exemplu la crearea unui psihic artificial de roboți În știință, acest lucru va duce la o schimbare a accentului de la studiul algoritmilor individuali de învățare la nivelul arhitecturii sistemelor de învățare care conțin multe module de învățare care interacționează Până acum, am observat astfel de sisteme doar în natura vie Este, desigur, despre creier Există o dorință firească de a avansa în această direcție prin reconstruirea arhitecturii computaționale a creierului - nu avem de la cine altcineva să învățăm Subliniem că vorbim despre privirea creierului "din ochi de pasăre", despre înțelegerea principiilor generale de organizare a creierului (nu cum este aranjat creierul, ci cum funcționează) Din punct de vedere practic, în contextul teoriei învățării, are sens să se concentreze asupra nivelului de sistem În acest capitol, descriem ideile actuale despre arhitectura globală a creierului, rezumând datele și teoriile disponibile în literatură Principalele subsisteme ale creierului Principalele subsisteme ale creierului În forma sa cea mai generală, această idee este ilustrată în Fig , care arată ce tipuri de învățare sunt caracteristice unor subsisteme atât de mari ale creierului precum cortexul, ganglionii bazali și cerebel Orez Interacțiune și modele de învățare ale principalelor subsisteme ale creierului [Doya, ] În această logică, ne vom construi prezentarea Și anume, să încercăm să înțelegem care este sarcina fiecăruia dintre aceste subsisteme, cum este îndeplinită această sarcină și cum interacționează aceste subsisteme între ele Faptul că "nu trăiesc unul fără celălalt" rezultă cel puțin din faptul empiric că aproape fiecare element al cortexului participă simultan la trei circuite principale de control [L Koziol și Budding, ] prezentate în Fig Cortexul acumulează cunoștințe despre lumea exterioară și despre cum să interacționeze cu ea Feedback pozitiv al cortexului cu ARHITECTURA COMPUTAȚIONALĂ A CREIERULUI la fel de Latra Ganglionii bazali Cerebel talamus ti Th Th A la fel de Orez Principalele circuite de control ale creierului (s, a - zone ale cortexului care recunosc situația și, respectiv, dezvoltă o reacție la aceasta) talamusul asigură menținerea activității corticale pe o perioadă mai mult sau mai puțin îndelungată, necesară coordonării activității diferitelor părți ale cortexului Ganglionii bazali pot inhiba sau dezinhiba această legătură pozitivă, jucând rolul de arbitru în competiția dintre activitatea diferitelor zone ale cortexului În cele din urmă, cerebelul ajută la gestionarea acțiunilor de rutină prin adoptarea unor decizii luate anterior de cortex și ganglionii bazali în timpul procesului de învățare În secțiunile următoare, vom prezenta modele ale acestor subsisteme și relația lor între ele, începând cu principiile de funcționare ale celor mai tineri din punct de vedere evolutiv și, în același timp, cel mai mare subsistem al creierului uman - cortexul În special, vom încerca să explicăm modul în care creierul mamiferelor este calitativ superior creierului reptilian În secțiunile finale, vom vorbi și despre diferența dintre creierul primatelor și al oamenilor față de creierul altor mamifere Acolo vom aborda, de asemenea, aspectele practice ale abordării noastre "arhitecturale", și anume, în ce direcție ar trebui dezvoltată o nouă arhitectură a computerelor, non-Von Neumann, pe drumul către inteligența artificială Cortex: memorie asociativă Cortex: memorie asociativă Cortexul cerebral uman este un țesut neural bidimensional subțire ( ± mm), cu o suprafață totală de ± cm Este dispusă surprinzător de uniform, având o structură stratificată și celulară mai mult sau mai puțin pronunțată Diferențele calitative există doar între părțile mai vechi ale cortexului (paleocortex și arhicortex) și neocortexul mai tânăr, care predomină la om (aproximativ % din suprafață) Ele diferă, în special, prin numărul de straturi Neocortexul, care va fi discutat în principal mai jos, conține șase straturi de celule, în timp ce secțiunile mai vechi au mai puține straturi decât sunt mai vechi Pentru a înțelege semnificația complicației crustei în cursul evoluției, să ne oprim mai întâi asupra structurii stratificate a crustei Structura stratificată a cortexului: codificare predictivă După cum se arată în fig a, neuronii din diferite straturi ale cortexului sunt specializați în interacțiunea cu diferite părți ale cortexului și cu structurile subcorticale Principalul receptor al informațiilor de intrare care intră în cortex prin talamus este stratul IV de mijloc al așa-numitului celule granulare Ele amplifică semnalul de intrare și îl propagă într-un difuzor dat (vezi secțiunea următoare) Informațiile dintre diferitele părți ale cortexului sunt transmise de celulele piramidale ale straturilor rămase Straturile superioare ale cortexului I-IP (supragranular) primesc semnale din zonele corticale corespunzătoare nivelurilor inferioare ale ierarhiei, îl corelează cu semnalul local din stratul IV și transmit rezultatul către straturile profunde V-VI (infragranulare), Doar - % din toate sinapsele excitatorii din stratul IV transmit informații de intrare din talamus, restul sunt de origine locală, amplificând semnalul de intrare sub controlul informațiilor din diferite părți ale cortexului [Douglas și K A C Martin, ] ARHITECTURA COMPUTAȚIONALĂ A CREIERULUI care primeşte şi informaţii de la nivelurile superioare ale ierarhiei Rezultatul este tradus în structuri subcorticale secvenţial prin stratul V până la ganglionii bazali şi apoi prin stratul VI până la talamus [Barrett şi Simmons, ] (a) Specializarea neuronilor în diferite straturi ale neocortexului Straturile superioare (І-ІП) procesează informații din diferite părți ale cortexului Straturile inferioare (IV-VI) fac schimb de informații și cu structurile subcorticale [Solari și Stoner, ] (b) Codarea predictivă în ierarhia modulelor corticale conform Shipp et al , : straturile corticale inferioare (V-VI) codifică predicțiile semnalului de intrare, iar straturile corticale superioare (I-III) eroarea aceste previziuni Fluxul de predicții merge de la niveluri superioare de abstractizare în jos Spre el de jos în sus este un flux de erori ale acestor predicții Orez Structura stratificată a neocortexului și schema de interacțiune a modulelor corticale Schema de interacțiune a neuronilor din cortex (vezi Fig b) poate fi interpretată ca o codificare predictivă ierarhică a semnalelor de intrare [Bastos et al , ] Conform acestui concept, cortexul este o ierarhie de module, în care etajele superioare încearcă în mod constant să prezică starea celor inferioare, descriind în comun semnalele de intrare cu trăsături din ce în ce mai abstracte În acest caz, etajele inferioare nu transmit semnalul în sine în partea de sus, ci doar corecția acestuia în raport cu valorile prezise Cortex: memorie asociativă Acest concept este legat de modelul empiric bayesian [Carlin și Louis, ], unde fiecare nivel următor al ierarhiei codifică contextul curent sn+ (Anterior P(sn+ )), în care nivelul anterior își percepe informațiile locale sn (Versibilitatea P(sn| sn+ )) Distribuția posterioară a datelor, respectiv, este determinată de produsul lor: P(sn,sn+ ) = P(sn|sn+ )P(sn+ ) Diferența dintre informații a posteriori și a priori logP(sn+ ) - gP(sn,sn+ ) = - gP(sn|sn+ ) poate fi interpretat ca un flux de erori de predicție Această abordare se numește empirică deoarece distribuția anterioară nu este fixă, ci se adaptează constant la fluxul de date curent Astfel, cortexul în fiecare moment al timpului construiește un model predictiv ierarhic al contextului actual în care sunt percepute informațiile care intră în el Funcția obiectivă a cortexului este de a minimiza eroarea totală a predicțiilor sale: c- = (- log P (o \ L - )) = E (- log P (s "\s" + )) \u d E o" p p Friston, în cel mai simplu model al cortexului sugerează că straturile inferioare ale cortexului codifică valorile medii ale distribuției condiționate pn = (sn), iar conexiunile dintre neuronii de diferite niveluri ale ierarhiei stabilesc un model predictiv de activitatea stratului inferior pentru o activitate dată a celui superior: pn - g(pn + , jp) Straturile superioare ale cortexului prezintă o eroare în această predicție, £n rn rn și tind să-și minimizeze activitatea În consecință, atât dinamica, cât și învățarea corticală sunt interpretate în același mod, ca un proces de minimizare a erorilor de predicție, reprezentând diferite etape ale învățării EM: - predictii model (E-step); - antrenament model (M-step) O astfel de învățare poate fi formulată ca un principiu general de minimizare a energiei libere, care ARHITECTURA COMPUTAȚIONALĂ A CREIERULUI implementat prin mecanismul Hebbian bazat pe biologic [Friston, ; Ramstead și colab , ; Yufik și Friston, ] În acest model al cortexului, nu semnalul în sine este transmis la nivelul următor, ci eroarea predicției sale la nivelul anterior, adică oarecum contraintuitiv, la perceperea lumii exterioare, informaţia se transmite mai ales de sus în jos, nu din simţuri, ci, dimpotrivă, către acestea Cortexul menține continuu un context pe mai multe niveluri pentru analiza informațiilor externe, își adaptează constant modelul intern la o situație în schimbare Toate nivelurile de descriere, de la detalii subtile până la cel mai larg context, sunt mereu actualizate În același timp, dacă situația externă se încadrează în modelul actual, atunci nu apare deloc informații! Corectarea modelului are loc numai atunci când acesta, într-o anumită parte a acestuia, încetează să mai corespundă realității Numai în acest caz, erorile de predicție sunt trecute până când cortexul selectează din arsenalul său un model adecvat care minimizează aceste erori Abordarea descrisă mai sus explică nu numai percepția lumii, ci și interacțiunea activă cu aceasta, în care cortexul nu numai că prezice semnalele senzoriale care vin în ea, dar dezvoltă și acțiuni de control în conformitate cu circumstanțele în schimbare Friston et al , au arătat că minimizarea energiei libere în condițiile unei astfel de interacțiuni active cu mediul (inferență activă) corespunde alegerii strategiei optime de acțiuni care simultan maximizează și așteptate în cadrul modelului existent pe O confirmare indirectă a acestui lucru este faptul că numărul de fibre nervoase de la cortexul vizual primar până la talamus, adică spre fluxul de intrare, un ordin de mărime mai mare decât de la talamus la cortexul vizual [Eagleman, ] Codarea predictivă, care minimizează transmisia de date, este utilizată pe scară largă în tehnologie, de exemplu, în compresia semnalului video Într-o versiune liniară, este cunoscută sub numele de filtrare Kalman De fapt, acesta din urmă a servit drept prototip pentru primele modele predictive ale cortexului [Spratling, ] Cortex: memorie asociativă gradul și rafinamentul a posteriori al acestui model Astfel, minimizarea energiei libere rezolvă binecunoscuta dilemă a explorării vs exploatării, făcând o alegere rezonabilă între acțiuni care vizează atingerea scopului (când situația este suficient de clară) și acțiuni care clarifică cât mai mult situația actuală (în cazul incertitudinii) Creierul nu numai că își folosește modelul de lume, dar și menține constant gradul necesar de certitudine- caracterul adecvat al acesteia Astfel, modelul predictiv al cortexului leagă zonele sale senzoriale și motorii colaborative în unități individuale de învățare activă corespunzătoare diferitelor niveluri ale ierarhiei senzorio-motorii, așa cum se arată în Fig , [Fuster, ; Todorov, ] Fluxul de sus în jos al informațiilor din cortexul motor este direcționat, ca și în cel senzorial, pentru a minimiza fluxul ascendent al erorilor senzoriale Cortexul motor construiește modele de acțiuni predictive, de ex modele de comportament previzibil în lumea exterioară Cortexul senzorial prezice ce se va întâmpla dacă cortexul motor face ceea ce va face Astfel, modelele lumii și acțiunile construite în această lume se formează simultan și împreună în cortex În general, teoria codificării predictive a informațiilor în cortex explică o cantitate imensă de date empirice într-un mod unificat (vezi monografia [A Clark, ]) Poate că această inovație evolutivă a făcut ca neocortexul să fie atât de eficient încât a început să-și crească intens cota și rolul în creierul mamiferelor și în special al primatelor (vezi secțiunea ) La urma urmei, cu cât suprafața cortexului este mai mare, cu atât vă puteți gândi la mai multe niveluri de ierarhie în el Scoarța își poate ajusta dinamic atitudinea față de erorile predicțiilor sale În zonele care nu sunt în prezent focalizate, semnalul de eroare de predicție poate fi suprimat Pentru a face acest lucru, în straturile superioare ale cortexului, există celule piramidale speciale - celule de precizie, care cântăresc eroarea în conformitate cu nivelul actual de atenție în această zonă a cortexului [Barrett și Simmons, ] ARHITECTURA COMPUTAȚIONALĂ A CREIERULUI cu atât vor fi mai profunde modelele lumii exterioare și interacțiunea cu aceasta În cortexul uman se disting câteva sute de regiuni funcționale , care, la rândul lor, sunt combinate în module funcționale mai mari corespunzând aproximativ câmpurilor Brodmann Cu cât este mai scăzută poziția zonei corticale în ierarhia procesării informațiilor, cu atât este mai pronunțat în acesta stratul IV, care primește semnale senzoriale de intrare de la talamus Prin urmare, cortexul senzorial primar este numit și granular Dimpotrivă, la nivelurile superioare ale ierarhiei senzoriale, stratul IV este slab sau absent În aceste zone agranulare ale cortexului, structura cu straturi este înlocuită cu una mai simplă, cu un număr mai mic de straturi, trecând treptat în aceeași structură străveche stratificată a hipocampului cu diferite caracteristici ale neuronilor și proprietăți de memorie (vezi mai jos) Sf Orez Procesarea ierarhică a informației în cortex Mai jos - ierarhia caracteristicilor din fluxul de intrare, deasupra - ierarhia răspunsurilor De exemplu, Power, Cohen et al , identifică de astfel de zone În cortexul motor primar, stratul IV este, de asemenea, slab exprimat, deoarece erorile din predicțiile ei sunt trimise la cortexul senzorial primar Cortex: memorie asociativă În același timp, tehnologia de învățare profundă care este populară astăzi, când rețelele multistrat sunt antrenate strat cu strat pentru a codifica și recunosc caracteristici din ce în ce mai complexe, poate fi considerată un model fundamental de ierarhie senzorială Fondatorii învățării profunde și-au extras ideile din munca de modelare a sistemului vizual pentru nevoile viziunii computerizate, iar domeniul principal de învățare profundă - sarcinile de recunoaștere a modelelor - corespunde specializării cortexului senzorial Între timp, a doua ierarhie suplimentară a cortexului - organizarea comportamentului complex direcționat către un scop de sus în jos - nu a intrat încă în practica învățării automate aplicate Vom explora modelul relevant de învățare prin consolidare profundă în Capitolul Mai sus, pentru simplitatea prezentării ideii principale, ne-am limitat la conexiunile corticale De fapt, după cum sa menționat deja, cortexul este strâns legat de structurile subcorticale, în special de talamusul Contabilizarea conexiunilor talamo-corticale transformă modelul neocortexului într-o rețea recurentă capabilă să codifice nu doar stările curente, ci și istoria semnalului În ceea ce privește viziunea, de exemplu, o astfel de codare conține implicit nu numai coordonatele obiectelor, ci și vitezele acestora Ceea ce este esențial atât pentru selectarea corectă a obiectelor, cât și pentru prezicerea desfășurării evenimentelor Folosind un model destul de realist al cortexului vizual, O'Reilly, Wyatte et al , au arătat că o astfel de codificare predictivă, ținând cont de conexiunile talamocorticale recurente, îmbunătățește dramatic calitatea recunoașterii obiectelor în scenele complexe în schimbare dinamică Interesant este că atunci când excitația este transmisă la stratul VI, neuronii stratului V formează un fel de "linie de întârziere", declanșând aproximativ la fiecare ms (la o frecvență alfa de ~ Hz), în timp ce activitatea în straturile superioare ale cortexul este de obicei concentrat în gama gamma (~ Hz) [Spaak et al , ] Este posibil ca o astfel de întârziere să permită colectarea informațiilor în straturile inferioare din părți destul de îndepărtate ale neocortexului ARHITECTURA COMPUTAȚIONALĂ A CREIERULUI pentru a-l comprima împreună cu istoricul disponibil la următoarea iterație a rețelei recurente Structura celulară a cortexului: codificare discretă Să ne întoarcem acum la structura celulară a neocortexului Mountcastle, , într-un număr special al revistei Cerebral Cortex dedicat acestui subiect, descrie structura neocortexului după cum urmează: elementul structural de bază al cortexului este o minicoloană de aproximativ µm în diametru care conține aproximativ de neuroni Minicoloanele cu câmpuri receptive comune sunt grupate în coloane mai mari cu un diametru de - µm Potrivit lui Mountcastle, coloana care conține aproximativ de minicoloane ( neuroni) este principalul element funcțional al neocortexului Fiecare astfel de coloană "răspunde" la o anumită combinație a semnalelor sale de intrare Datorită prezenței circuitelor de amplificare în cortex, acest răspuns are o amplitudine suficientă pentru a transmite un semnal între diferite părți ale creierului, indiferent de amplitudinea semnalului de intrare Coloanele se formează ca urmare a dezechilibrelor temporare în procesele de excitare și inhibiție din cortex Mărimea lor este determinată de distanța pe care excitația are timp să se propage înainte ca neuronii inhibitori să se pornească cu o oarecare întârziere [Derdikman et al , ] Zona de inhibiție captează coloanele învecinate pe o rază de câțiva milimetri (dimensiunea caracteristică a axonilor locali ai neuronilor corticali piramidali [Boucsein et al , ]) Datorită prezenței unei astfel de competiții locale, doar una dintre câteva zeci de coloane învecinate este câștigătoare Neuronii au nevoie de timp pentru a se relaxa după ce au fost concediați, astfel încât minicoloanele se pot înlocui reciproc pentru a menține nivelul dorit de excitare a coloanei, similar cu modul în care fibrele musculare individuale din mușchii încordați se înlocuiesc în mod constant Cortex: memorie asociativă Dacă toate aceste coloane primesc același semnal de intrare, atunci o astfel de hipercoloană produce o clasificare a acestui semnal (a) Interacțiunea neuronilor în diferite coloane ale neocortexului Dimensiunea caracteristică a coloanei este de , mm, dimensiunea caracteristică a interacțiunii laterale este de - mm [Boucsein et al , ] (b) Modelul neocortex ca un set de hărți Kohonen auto-organizate locale care efectuează codificare rară a semnalelor de intrare În fiecare hipercoloană, doar o coloană este activă, recunoscând unul dintre semnalele tipice care vin în această zonă a cortexului Orez Structura celulară a neocortexului Extrem de grosier, neo-cortexul uman poate fi imaginat ca fiind format din ІО hipercoloane (hărți locale de auto-organizare [Kohonen, ]), fiecare dintre acestea recunoscând una din câteva zeci de valori ale unei trăsături (atribute) De exemplu, de rumba la orientarea în spațiu sau unul din câteva zeci de foneme, litere ale alfabetului, note etc Situația în ansamblu este descrisă de un set de astfel de caracteristici într-o schemă de codare rară (Fig a) Codurile rare ale neocortexului oferă o codificare fiabilă și compactă a oricăror semnale multidimensionale Fiabilitatea se obține prin codificare binară (conform schemei "câștigătorul ia tot") cu coloane care conțin până la ARHITECTURA COMPUTAȚIONALĂ A CREIERULUI un număr destul de mare de neuroni Iar compactitatea se datorează unei scheme economice de eșantionare a semnalului Fiecare hipercoloană grupează semnalul de intrare în felul său, folosind propriul set de caracteristici independent de celelalte, astfel încât informațiile de la diferite hipercoloane să se completeze reciproc Astfel, un "buchet" de hipercoloane, care codifică un fel de semnal multidimensional, este capabil să reprezinte = ♦ IO din variantele sale - mai mult decât numărul total de momente mentale pe care le trăim de-a lungul vieții noastre Adică, orice aspecte ale realității pot fi codificate prin ansambluri de mai multe hipercoloane Să presupunem că o zonă cunoscută a cortexului care recunoaște fețele poate avea dimensiunea de x mm și conține doar hipercoloane, care, totuși, pot codifica împreună , adică aproximativ de persoane * Amintiți-vă acum ierarhia predicțiilor de sus în jos Poate servi ca un instrument eficient pentru dezvoltarea reprezentărilor invariante de către cortex La urma urmei, fiecare coloană recunoaște nu unul, ci un număr mare de modele de activitate; întreaga varietate de semnale observate de o anumită hipercoloană este "împărțită" între câteva zeci de coloane de detectoare ale sale Setarea anumitor coloane pentru un anumit context de către etajele superioare ale ierarhiei încurajează fiecare coloană să tindă să recunoască versiuni diferite ale aceleiași situații De exemplu, luați în considerare un ansamblu de coloane care codifică, să zicem, câinele meu O văd din multe unghiuri, dar în același context de "plimbare cu câinele" În consecință, acest context va atribui toate aceste vederi acelorași coloane, formând o reprezentare invariabilă a câinelui meu în cortexul meu cerebral Cum să nu-ți amintești "capsulele" propuse de Geoffrey Hinton, care studiază Deoarece nu toate hipercoloanele pot fi folosite în același timp Într-adevăr, această zonă poate fi de câteva ori mai mare Într-adevăr, se știe că diametrul acestei zone, Zona Fusiformă a Feței, mai puțin de - cm [Ghuman și colab , ] Cortex: memorie asociativă reprezentări variante [Sabour et al , ] Potrivit lui Hawkins, Ahmad și Cui, , codificarea ierarhică rară oferă un mecanism simplu și bazat biologic pentru a aduce această idee la viață Codarea rară a informațiilor în neocortex este ideea centrală a teoriei lui Jeff Hawkins [George și Hawkins, ] În acest sens, modelele noastre ale cortexului sunt similare, dar cu unele diferențe semnificative Potrivit lui Hawkins, principalul element de recunoaștere al cortexului este minicoloana, iar coloanele efectuează codificarea semnalelor rare Prin urmare, fiecare coloană este un element de memorie destul de încăpător, capabil să stocheze câteva sute de articole [Hawkins și Ahmad, ] În modelul tradițional al cortexului pe care l-am descris (vezi [T Dean, ]), o coloană Hawkinsiană corespunde unui set de hipercoloane, i e zona cortexului care oferă codificare binară rară a caracteristicilor este mult mai mare în țara noastră În opinia autorului, un astfel de model mai brut al cortexului oferă posibilitatea excitării pe termen lung a coloanei datorită înlocuirii constante a minicoloanelor sale "obosite" cu cele "odihnite" Și excitațiile pe termen lung în cortex sunt necesare pentru formarea tiparelor sincrone de activitate care unesc diferite părți ale creierului în acte unice de gândire conștientă, care vor fi discutate mai târziu În plus, în modelul nostru, coloana poate pierde o proporție semnificativă de celule odată cu vârsta, fără consecințe speciale Care model este mai aproape de adevăr va deveni în cele din urmă clar experimental Ni se pare că sunt de acord asupra principalului lucru - informațiile din cortex sunt reprezentate de coduri binare rare Rezumând, observăm că scopul principal al noului cortex este memoria categorică Neocortexul reprezintă situația actuală sub forma unor combinații stabile de trăsături invariante care au cea mai mare putere predictivă Tot ceea ce este accidental este eliminat de neocortex, lăsând doar o înțelegere pe mai multe niveluri a esenței evenimentelor ARHITECTURA COMPUTAȚIONALĂ A CREIERULUI , mm mm (b) Cortexul vizual primar (VI) constă din multe hipercoloane, fiecare dintre ele primește intrare dintr-un anumit punct de pe retină și recunoaște unghiul gradientului de iluminare în acel punct În figură, coloanele care răspund la unghiuri diferite sunt marcate cu culori diferite [Bednar și S Wilson, ] (a) O secțiune a neocortexului din mai multe hipercoloane, zone de competiție locală între coloanele învecinate, realizează codificarea rară a semnalelor de intrare Orez Structura celulară a neocortexului Scoarța antică: memorie episodică Aparent, strămoșii mamiferelor au fost lipsiți de această capacitate de gândire categorică Putem judeca acest lucru după zona vechiului cortex (arhicortex), a hipocampului, deja bine dezvoltat la reptile Îi lipsește structura celulară a neocortexului, iar conexiunile dintre neuroni sunt mult mai rare și mai lungi Conform conceptelor moderne, hipocampul implementează memoria asociativă ca o rețea Hopfield rară cu conexiuni globale între neuroni [Kesner și Rolls, ; Rolls, ] Și dacă noul cortex vede în lumea înconjurătoare doar modele tipice care îi sunt familiare, manifestate ca urmare a multor situații repetitive, atunci cortexul antic este capabil să facă rapid Cortex: memorie asociativă amintiți-vă modelele arbitrare și secvențele lor de timp Această abilitate este de bază pentru supraviețuire, deoarece trebuie să acționezi întotdeauna într-o situație specifică, aici și acum Creierul trebuie să fie capabil să construiască o imagine reală a lumii din mers, reunind toate semnalele externe, experiența acumulată și motivația actuală Animalele dintr-un mediu necunoscut încep mai întâi să-l exploreze, folosind hipocampul pentru a face o "hartă" mentală a zonei pentru codificarea predictivă într-un anumit mediu Premiul Nobel a fost acordat pentru descifrarea codului neuronal pentru reprezentarea unor astfel de hărți (plasați neuronii în hipocamp și coordonați neuronii în cortexul entorinal adiacent [Moser et al , ]) Mai general, hipocampul servește ca un depozit temporar al memoriei episodice personale, înregistrând evenimente care sunt semnificative pentru noi Doar în cazul nostru, informațiile semantice deja înțelese de noul cortex intră în această memorie: intrările în hipocamp nu sunt zonele primare, ci cele mai înalte ale ierarhiei cortexului Și anume, hipocampul este strâns legat de secțiunile limbice ale cortexului situat de-a lungul marginii sale - girusul cingulat și lobii insulari, precum și cu amigdala și hipotalamusul - structuri care determină colorarea emoțională și evaluarea situației Cu alte cuvinte, cortexul codifică ontologia noastră, optica internă prin care percepem această lume Hipocampul din această ontologie descrie situația actuală cu toate caracteristicile și posibilitățile sale inerente Memoria asociativă este capabilă să completeze modelul situației într-o parte a acesteia De exemplu, este capabil să prezică evoluția unei situații și să sugereze acțiuni adecvate pentru o anumită situație Stachenfeld et al , văd rolul principal al hipocampului tocmai în astfel de predicții, sugerând, de exemplu, că celulele locului codifică nu poziția actuală, ci cea prezisă a animalului, ținând cont de strategia actuală ARHITECTURA COMPUTAȚIONALĂ A CREIERULUI comportament, ajutând astfel la alegerea strategiei optime, ținând cont de eventuala desfășurare a evenimentelor Hipocampul este astfel punctul culminant al unui model predictiv ierarhic care leagă regiunile motorii și senzoriale ale neocortexului (vezi Figura ) Orez Model predictiv ierarhic al neocortexului și hipocampului (etaj superior) De-a lungul timpului, cea mai semnificativă parte a memoriei episodice pentru noi trece de la hipocamp, care are o capacitate de memorie limitată , la noul cortex, a cărui capacitate este limitată doar de dimensiunea sa Acest proces, numit consolidare, este ilustrat în Fig Consolidarea se bazează pe capacitatea hipocampului de a reda episoadele pe care le amintește de multe ori, învățând treptat neocortexul, de exemplu Versiunea recent propusă de memorie generativă distribuită de Y Wu, Wayne și colab , poate fi considerată ca un model de interacțiune hipocamp-neocortex care leagă între ele subsistemele de învățare rapidă și lentă Capacitatea modelului Hopfield rar este proporțională cu numărul de sinapse din neuronii individuali și este limitată la câteva zeci de mii de modele [Palm, ] Cortex: memorie asociativă în timpul somnului [Battaglia et al , ; Saletin și Walker, ] sau a fi treaz într-o stare de odihnă [Schlaffke et al , ] Drept urmare, modelul nostru despre lume este completat cu noi detalii și relații De exemplu, la oameni, ca animale sociale, sistemul de relații de rol din "haita noastră virtuală" este de mare importanță - acei aproximativ de oameni cu care relațiile sunt semnificative pentru noi Menținerea acestei hărți a relațiilor destul de complexe necesită un anumit loc în neocortex și este posibil ca creșterea ei în strămoșii noștri să fi fost cauzată tocmai de complexitatea rețelei sociale în comunitățile de primate în creștere Cel puțin conform lui Dunbar, , dimensiunea creierului primatelor se corelează cu dimensiunea tipică a comunităților lor Aceste argumente stau la baza așa-zisului teoria inteligenței "machiavelice", în care presiunea selecției naturale, stimulând creșterea neocortexului, este dictată de nevoia de concurență cu propria specie Într-o astfel de situație, cineva trebuie să-și îmbunătățească constant abilitățile cognitive, ceea ce se crede că a dus la o explozie "cognitivă" la homo sapiens [Gavrilets și Vose, ] Vom reveni la această problemă în Capitolul (Secțiunea ) Orez Consolidarea memoriei episodice de la hipocamp la neocortex în timpul somnului [Saletin și Walker, ] ARHITECTURA COMPUTAȚIONALĂ A CREIERULUI Trecând de la cortex la structurile subcorticale, observăm că, datorită naturii sale asociative, cortexul în sine nu este capabil să ofere gândire, deoarece ii lipseste un mecanism de concentrare La fel ca valurile pe apă, în ea se generează constant valuri divergente de asociații Pentru a se concentra, a subordona acțiunile unui singur plan, trebuie să existe o modalitate de a gestiona aceste asocieri, de a evalua modelele predictive oferite de cortex pentru a organiza comportamentul intenționat Scopul căruia nu este doar o reacție la un stimul extern și nu satisfacerea nevoilor de moment ale organismului, ci un beneficiu pe termen lung, ținând cont de posibilele consecințe pe termen lung ale acțiunilor cuiva Un astfel de mecanism de control global intenționat al diferitelor zone ale cortexului este oferit de zonele antice ale creierului anterior - ganglionii bazali S-au format la pești, dar s-au dezvoltat la reptile în procesul de adaptare evolutivă a amfibienilor la viața de pe uscat Acest subsistem de control al comportamentului a fost cel care a oferit dinozaurilor dominație pe Pământ pentru o lungă perioadă de timp A fost păstrat fără modificări semnificative și la mamiferele moderne (Reiner și colab , ) Cortexul creierului anterior s-a format mai târziu și s-a dezvoltat sub controlul ganglionilor bazali, integrându-se în structura de control mai veche și transformând-o treptat Într-un fel, chiar și la oameni, ultimul cuvânt în alegerea comportamentului rămâne încă cu "creierul șopârlei", la care ne întoarcem acum Pentru început, totuși, luați în considerare sistemul talamo-cortical, care, de fapt, este controlat de ganglionii bazali Talamus: atenție și conexiune a senzațiilor Talamus: atenție și conexiune a senzațiilor După cum reiese din secțiunea anterioară, straturile superioare ale cortexului sunt specializate în procesarea informațiilor în interiorul cortexului, în timp ce prin straturile inferioare informațiile sunt schimbate între cortex și lumea exterioară În special, toate inputurile senzoriale, cu câteva excepții , intră în cortex prin talamus, principala joncțiune de distribuție a creierului în centrul său Talamusul face parte din diencefalul responsabil cu reglarea homeostaziei și menținerea integrității organismului Există, de asemenea, hipotalamusul, care este responsabil pentru reflexele și instinctele de bază, și glanda pituitară, care controlează sistemul endocrin Mecanismele străvechi ale somnului și stării de veghe implică, de asemenea, controlul fluxului de informații senzoriale prin talamus Cortexul este foarte strâns legat de talamus - fiecare coloană a cortexului primește informații de intrare de la acesta și transmite înapoi rezultatele prelucrării sale și, de regulă, în același loc din care a primit Conexiuni talamo-corticale recurente formează circuite de amplificare care permit menținerea pe termen lung a centrilor de excitație - autooscilații Astfel, cu ajutorul talamusului, cortexul poate "menține atenția" asupra anumitor gânduri pentru o perioadă destul de lungă de timp chiar și după ce sursa lor a dispărut din vedere (vezi Fig ) [Ribary, ] Natura oscilativă a excitațiilor din cortex este foarte importantă pentru înțelegerea modului în care funcționează creierul Sincronizarea oscilațiilor diferitelor părți ale creierului este o condiție necesară pentru interacțiunea eficientă a acestora Dacă oscilațiile regiunilor creierului nu sunt sincronizate, transferul de informații între ele este Excepție este o secțiune a cortexului olfactiv, din care, de fapt, în procesul de evoluție la mamifere s-a dezvoltat neocortexul Pe lângă astfel de proiecții reciproce, prin talamus se realizează și conexiunile între diferite părți ale cortexului ARHITECTURA COMPUTAȚIONALĂ A CREIERULUI dificil chiar și în prezența conexiunilor fizice, tk neuronii în faza de inhibiție nu sunt excitați Adică, sincronizarea oscilațiilor este o modalitate de organizare dinamică a diferitelor configurații ale excitațiilor din creier Sincronizarea globală a oscilațiilor din creier, care formează un câmp informațional integral în el, corespunde stării de conștiință atunci când toate senzațiile sunt percepute și realizate subiectiv sub forma unei singure idei coerente despre lume și despre sine Fiecare moment de sincronizare globală a excitațiilor din creier corespunde unui act elementar de conștiință care durează aproximativ , secunde (adică, mai multe perioade de oscilații alfa sau aproximativ o duzină și jumătate de oscilații gamma, suficiente pentru a sincroniza diferite părți ale cortexului [Mateos et al , ] ) Conform definiției figurative a lui K V Anokhin, "conștiința este o percolare globală a cunoașterii în creier" Aceasta subliniază faptul că tranzițiile dintre stările conștiente și inconștiente sunt similare cu tranzițiile de fază studiate în teoria percolării (fluxului) Fără să aprofundăm mai mult în acest subiect interesant, trimitem cititorul la recenzii ale ideilor moderne despre natura conștiinței [Bach, ; Dehaene, ; Tononi și Koch, ] Talamusul joaca un rol central nu numai in organizarea gandirii constiente, ci asigura si coerenta senzatiilor noastre la nivel subconstient Și anume, în cortex sunt inițiate simultan diverse semne legate de același obiect, ceea ce înseamnă că oscilațiile lor sunt în fază Acest lucru ne permite să le conectăm într-o singură senzație, de exemplu, o "mașină albastră în mișcare", deși mișcarea, culoarea și forma acesteia sunt analizate de diferite părți ale cortexului simultan cu multe alte semne ale situației actuale (Fig ) ) [Von der Malsburg, ] Astfel, talamusul este capabil să sporească activitatea anumitor zone ale cortexului și să le conecteze între ele [Ward, ] Cu toate acestea, cineva trebuie să determine care zone ale cortexului într-un anumit Ganglionii bazali: luarea deciziilor Orez Auto-oscilații în sistemul talamo-cortical orice moment de întărit și care, dimpotrivă, să încetinească Este necesar un mecanism de gestionare a atenției În creierul mamiferelor, această sarcină este atribuită ganglionilor bazali Deoarece tot controlul provine dintr-o funcție țintă, în ganglionii bazali se formează valorile de bază care ne determină comportamentul și gândirea Ganglionii bazali: luarea deciziilor managementul atenției După cum se cuvine unui post de comandă, ganglionii bazali sunt ascunși sub suprafața cortexului (Fig a), majoritatea zonelor cărora le "raportează" starea lor prin neuronii de ieșire ai stratului V Aceste semnale sunt concentrate pe suprafața exterioară a ganglionilor bazali, în striat, pas- ARHITECTURA COMPUTAȚIONALĂ A CREIERULUI Latra talamus Orez Conectivitatea senzațiilor prin sincronizarea oscilațiilor în sistemul talamo-cortical fascicule paralele de axoni din cortexul frontal, responsabili de comportament și gândire, și revin în același loc de unde au pornit prin conexiunile talamo-corticale Prin aceste bucle de control închise se realizează controlul principal asupra stărilor cortexului (vezi Fig b) Conexiuni difuze suplimentare furnizează striatul cu informații contextuale din alte zone ale cortexului, în special din hipotalamus Să aruncăm o privire la modul în care funcționează aceste bucle de control [Gurney și colab , ; Shumsky, ] Ganglionii bazali conțin în principal neuroni inhibitori Acesta este cel mai puternic subsistem inhibitor al creierului În partea interioară a ganglionilor bazali, pallidum, există un nivel de fundal al excitației, iar neuronii săi inhibitori în mod normal inhibă întotdeauna talamusul (vezi Fig , unde sinapsele inhibitoare sunt indicate prin puncte și excitatorii prin săgeți) În acest caz, circuitele talamo-corticale nu sunt excitate și nu există excitații pe termen lung în zonele corespunzătoare ale cortexului Ganglionii bazali: luarea deciziilor evaluarea situatiei alegerea comportamentului semnal pentru a învăța (a) Ganglionii bazali și substanța neagră neocortex Ganglionii bazali talamus (b) Informația circulă între cortex, ganglionii bazali și talamus Orez Circuitul de control al ganglionilor bazali ARHITECTURA COMPUTAȚIONALĂ A CREIERULUI Pentru a menține activitatea pe termen lung în cortex, părțile corespunzătoare ale talamusului trebuie dezinhibate Ganglionii bazali Latra striat Pallidum substanță neagră talamus Orez Fără sancțiunea ganglionilor bazali, circuitele de amplificare ale talamusului sunt inhibate Decizia în acest sens este luată de striatul, care primește toate informațiile de la cortex El compară posibilele acțiuni oferite de cortex într-un context dat și le alege pe cea mai bună dintre ele Secțiunile corespunzătoare ale striatului sunt excitate și dezinhibate zonele talamusului conectate la acestea, deschizând posibilitatea activării feedback-urilor pozitive ale circuitului talamo-cortical (Fig ) Astfel, ganglionii bazali reglează activitatea cortexului, organizând competiția globală între diferitele sale părți Mai mult, lupta competitivă poate continua pe mai multe runde, până când rămâne una, potențial cea mai utilă acțiune în acest context Trăim această luptă internă într-o situație de "alegere dificilă" Ganglionii bazali: luarea deciziilor Latra Ganglionii bazali striat Pallidum substanță neagră talamus Orez Ganglionii bazali dezinhibează circuitele de amplificare talamice selectate Educația pentru valori Cum evaluează neuronii striatali utilitatea anumitor acțiuni? Prin întărirea sau slăbirea conexiunilor lor sinaptice cu cortexul în procesul de învățare cu întărire sub influența unui neuromodulator special - dopamina (dopamina), care pătrunde în striatul din substanța neagră (vezi Fig ) Algoritmul de învățare corespunzător este ilustrat în Fig Întărirea este determinată de nivelul de excitație al substanței negre, care primește două tipuri de semnale În primul rând, acestea sunt semnale de întărire rt care vin către neuronii substanței negre din cele mai vechi sisteme de control ale creierului: din hipotalamusul responsabil de homeo- Aici vorbim despre așa-numitul striatul dorsal - vezi mai târziu în aceeași secțiune ARHITECTURA COMPUTAȚIONALĂ A CREIERULUI Orez Semnal de întărire a dopaminei din substanța neagră staza corpului și îndeplinirea programelor genetice (reflexe înnăscute), și din amigdala, care învață în procesul vieții să asocieze aprecierile înnăscute cu semnalele externe (reflexele dobândite) Aceste acțiuni de control direcționează corpul să-și satisfacă nevoile de moment (de a alerga, de a ataca etc ) și de a determina culoarea emoțională a fiecărui moment din viața noastră În al doilea rând, ganglionii bazali trimit semnale valorice suplimentare de la striat către substanța neagră, oferind un comportament mai prevăzător, ținând cont de posibilele câștiguri și pierderi viitoare, i e cu mari şanse în lupta pentru existenţă În termeni generali, acest mecanism de învățare este următorul În striat, există două populații de neuroni care răspund diferit la eliberările de dopamină, având diferite tipuri de receptori de dopamină - Din D Primul îl întărește, iar al doilea - suprimă Nivelurile de excitație ale neuronilor D și B , Q+(a, s) și respectiv Q~(a, s), evaluează utilitatea acțiunii a în contextul lui s într-un mod ușor diferit Neuronii dopaminergici din substanța neagră primesc Ganglionii bazali: luarea deciziilor Ganglionii bazali Q±(a> s) Valoarea acțiunii în stare ) Predicție t = rt - {rt) Recompensă neașteptată premii: Qq", adică (o) personaje Orez Codare binară rară: reprezentarea simbolică comprimată a modelelor de către modulul mașină Feynman (vezi secțiunea ) Fiecare modul al mașinii Feynman (secțiune a cortexului, se măsoară în fracții de cm, corespunzătoare mai multor hipercoloane ale neocortexului - vezi fig ) este atât un codificator al semnalului de intrare de la nivelul anterior al ierarhiei (straturile corticale superioare, - ), cât și un decodor de predicție de nivel superior (straturile corticale inferioare, - ), prezicând împreună valorile activări în modul la următorul pas de timp (vezi Fig Fig ) Codul binar rar al modulului are suficientă diversitate pentru a codifica orice serie temporală senzoriomotorie, astfel încât mașina Feynman să fie capabilă să învețe o varietate de comportamente dinamice Deoarece fiecare pereche codificator-decodor este antrenată local, mașina Feynman nu suferă de dependența pătratică a complexității învățării de numărul de parametri de model care este caracteristic algoritmului de backpropagation Așadar, antrenamentul este mult mai rapid și necesită mai puține exemple decât învățarea profundă obișnuită Autorii, în special, demonstrează pregătirea unui robot cu pilot automat în lumea reală pentru a ține evidența după o perioadă relativ Mașină Feynman semnal de supraveghere de sus în jos opțional ieșirea codificatorului L ♦ Codificator N Decodor N Encoder Decoder eroare decodor ieșire codificator L ▼ Encoder Decoder eroare de decodor Orez Schema ierarhică de codificare predictivă Mașini Feynman (din [Laukien et al , ]) un număr mic de curse de antrenament pe o pistă reală Robotul "prinde" destul de repede ceea ce i se cere și învață să conducă independent, fără zeci sau sute de mii de alergări în lumea jocului virtual Acest lucru mărturisește încă o dată fecunditatea principiului "învățați din creier" În opinia autorului, acest model poate pretinde că descrie nivelurile inferioare ale psihicului artificial, care exercită control inconștient asupra mișcărilor robotului și simulează Sistemul- menționat în ultimul capitol ÎN Drum spre PSIHIA ARTIFICIALĂ Mai jos vom descrie o generalizare a acestei scheme la un comportament mai complex - compilarea și monitorizarea execuției unei ierarhii de planuri, mai asemănătoare cu modul de gândire rațională al Sistemului- Gândirea simbolică: ideea principală Pentru început, să ne amintim din nou programul AlphaZero (vezi secțiunea ) și ceea ce nu suntem mulțumiți în el este în principal complexitatea sa inerentă de învățare, măsurată în sute de teraflops-ani În consecință, un astfel de algoritm de învățare este limitat la lumi de joc virtuale și nu este potrivit pentru antrenarea roboților în lumea reală Motivul pentru această ineficiență este că intuiția jocului AlphaZero este reprezentată de o rețea neuronală profundă și este limitată la o mișcare următoare Această intuiție este completată de algoritmi pentru calcularea setului de opțiuni la o anumită profunzime, ceea ce, desigur, îmbunătățește jocul, dar de fiecare dată - la nivel local, la nivelul alegerii următoarei mișcări (vezi Fig ) înțelegerea profundă a poziției planificării profunde: calculul arborelui de opțiuni la fiecare pas Training in retea: Orez Intuiția rețelei AlphaZero extinde doar o mișcare înainte: pentru orice poziție, oferă evaluarea sa și mai multe opțiuni pentru cele mai bune mișcări AlphaZero nu are o planificare în profunzime Gândirea simbolică: ideea principală analizator Acumularea interacțiunii cu lumea Toate orizonturile de planificare Antrenament în timp real codificator- decodor analizator Encoder-Decoder sa Orez Arhitectura propusă vă permite să vă amintiți și să utilizați cele mai utile modele de comportament pe diferite scale de timp Utilitatea este determinată de semnalele de întărire care selectează lanțuri bune de acțiune Învățarea se face de jos în sus, de la simplu la complex Iar comportamentul, dimpotrivă, este planificat de sus în jos, de la obiective până la mijloacele pentru a le atinge AlphaZero nu are un mecanism de planificare ierarhică în care există un plan de joc la scară largă care poate fi descompus în planuri mai detaliate pentru implementarea etapelor sale individuale Ceea ce se distinge în știința militară ca nivelurile strategice, operaționale și tactice de comandă Dar tocmai această capacitate de a descompune probleme complexe într-un număr de altele mai simple este de obicei considerată unul dintre semnele gândirii logice sau simbolice de nivel înalt Mai târziu în acest capitol, vom prezenta o arhitectură capabilă să implementeze acest tip de gândire simbolică ierarhică și comportamentul stratificat complex corespunzător ÎN Drum spre PSIHIA ARTIFICIALĂ Această arhitectură poate fi privită ca o generalizare a mașinii Feynman, unde la fiecare nivel perechea codificator-decodor este completată de un mecanism de planificare primitiv, un parser capabil să combine reprezentările simbolice găsite de encoder, amintindu-și combinațiile tipice de simboluri și alegând dintre modelele de comportament care sunt cele mai promițătoare într-un context dat Adică, ca și în AlphaZero, intuiția este completată de calcul, dar calculul este efectuat simultan la mai multe niveluri ierarhice care funcționează în diferite intervale de timp Alegem nu doar următoarea cea mai bună mișcare, ci menținem o ierarhie reală a planurilor imbricate (vezi Figura ) În ciuda faptului că planificarea este limitată în timp la fiecare nivel, ierarhia tiparelor temporale de comportament permite etajelor superioare să "atingă" obiective foarte îndepărtate, subordonând comportamentul curent intereselor pe termen lung ale agentului Conjectura despre modulele recursive ale cortexului În primul rând, să discutăm mecanismul prin care schema de gândire propusă poate fi implementată în secțiunile asociative ale neocortexului Credem că în secțiunile asociative superioare ale cortexului, modulul de calcul principal diferă de modulele secțiunilor primare ale cortexului senzoriomotor (vezi Fig ) Conform ipotezei noastre, în cortexul asociativ, semnalele de la nivelurile inferioare ale ierarhiei sunt recepționate de mai multe hipercoloane, ca în mașina Feynman Dar în cortexul asociativ, astfel de hipercoloane de recepție orientate spre exterior sunt centrele modulelor recursive constând Conjectura despre modulele recursive ale cortexului de la hipercoloane care se uită în interiorul modulului, adică pe ei înșiși (partea dreaptă a Fig ) Hipercoloanele receptoare ale fiecărui nivel codifică discret starea curentă de gândire (activări coloanei) la nivelurile inferioare Fiecare astfel de hipercoloană își grupează semnalul de intrare, de exemplu îl reprezintă ca unul dintre simbolurile sale Semnalele de intrare ale fiecărui modul (având, cel mai probabil, câmpuri receptive rare aleatorii) diferă unele de altele Împreună, aceste module efectuează codificare discretă rară a modelului de excitații în cortex la un nivel ierarhic inferior Deoarece modelul de excitații în cortex se schimbă în timp, fiecare hipercoloană receptoare își formează propria secvență de simboluri Sarcina modulului recursiv este codificarea spațială a acestor secvențe temporale, memorarea și recunoașterea construcțiilor tipice din simboluri - morfeme, prin analogie cu limbajul Cunoașterea dicționarului de morfeme tipice, modele temporale de gândire, vă permite să recunoașteți aceste modele în fluxul curent, să anticipați cursul evenimentelor și, în cele din urmă, să le gestionați Prin selectarea modelelor de morfeme cu ajutorul ganglionilor bazali care au primit cea mai mare întărire în trecut, modulele de calcul recursive sunt capabile să formeze în mod activ comportamentul optim în acest context, care, la fel ca în mașina Feynman, este decodificat din reprezentarea simbolică a niveluri superioare în modelul de activare al nivelurilor inferioare Astfel, ierarhia modulelor recursive ale cortexului asociativ poate analiza situația și planifica comportamentul pe mai multe scale de timp simultan (vezi Fig ) Modulele recursive formează automat o rețea cu o topologie "lume mică", de vreme ce Majoritatea conexiunilor dintre neuroni sunt locale ÎN Drum spre PSIHIA ARTIFICIALĂ Orez Stânga: ierarhia modulelor senzoriomotorii ale neocortexului corespunzătoare mașinii Feynman Dreapta: ierarhia modulelor recursive ale neocortexului corespunzătoare secțiunilor sale asociative responsabile cu planificarea acțiunii Potrivit autorului, așa se poate organiza gândirea noastră simbolică, întruchipată, în special, în limbaj, iar structurile recursive ale limbajului ne sugerează algoritmii de bază ai cortexului asociativ Recursiunea este definiția unui obiect în termenii lui însuși, atunci când fiecare parte a acestuia aparține aceleiași clase ca și obiectul însuși Structurile recursive sunt, de exemplu, arbori matematici formați din ramuri, fiecare dintre acestea fiind, la rândul său, un arbore Toată lumea își amintește probabil exercițiile școlare de analiza gramaticală a propozițiilor, adică construirea unui arbore sintactic care leagă cuvinte și grupuri de vocabular Structuri similare pot fi observate la alte niveluri, de la morfologia cuvintelor la "morfologia" actelor comportamentale [Jackendoff, ] Ca rezultat, Hauser et al , evidențiază recursivitatea ca fiind cea mai importantă caracteristică a unei limbi, iar "lingvistul nr " Noam Chomsky consideră operația de fuzionare a două entități (ramificarea arborelui binar) ca fiind operația de bază a oricărui model de limbă [Chomsky, ] Conjectura despre modulele recursive ale cortexului Probabil, folosind această operație de bază, modulele recursive ale cortexului asociativ analizează și structura seriilor de timp și le reprezintă sub formă de arbori binari Să ne imaginăm calitativ procesul de învățare al unui modul recursiv care conține mai multe hipercoloane, a căror intrare este o secvență temporală de simboluri generată de hipercoloana receptoare Cel mai adesea, simbolurile care se succed unele reprezintă cel mai simplu model stabil al semnalului de intrare, iar hărțile Kohonen, formate din coloanele fiecărei hipercoloane care concurează între ele, după cum știm, formează coloane-indicatori ai tiparelor tipice ale semnalelor de intrare Adică, orice apariție a unei astfel de perechi de caractere va fi recunoscută de unele coloane ale modulului recursiv Astfel, secvența de intrare a simbolurilor pentru modulul recursiv va fi suplimentată de excitațiile coloanelor indicatoare ale tuturor perechilor tipice de simboluri În urma acestora, vor apărea în mod inevitabil coloane-indicatori ai combinațiilor de simboluri cele mai frecvent repetate și perechile acestora etc În urma detectorilor pentru silaba "ma", vor apărea detectorii pentru cuvântul "ma-ma" Adică, antrenamentul modulului nostru recursiv ipotetic ar trebui să conducă la formarea de detectoare și recunoașterea în secvențele de intrare a tuturor combinațiilor tipice de simboluri, combinații ale combinațiilor lor etc Orice secvență de intrare va fi reprezentată de indicatori ai structurilor recursive tipice conținute în ea Dacă coloanele receptoare formează alfabetul acestui modul, atunci modulul recursiv însuși, ca urmare a învățării, acumulează un dicționar de morfeme și cuvinte tipice compuse din acestea Cu cuvinte din acest vocabular, fiecare strat descrie modelul temporal al excitațiilor corticale la un nivel inferior, iar propozițiile formate din aceste cuvinte sunt subiectul analizei la un nivel superior de gândire Mai jos descriem algoritmi pentru învățarea unui astfel de model ierarhic și pentru generarea unui comportament orientat către obiective ÎN Drum spre PSIHIA ARTIFICIALĂ cu un orizont de planificare arbitrar de lung în speranța că acești algoritmi ar putea sta la baza unui viitor sistem de operare robot Cei cărora nu le plac formulele și care nu sunt interesați de această prezentare mai formală a abordării descrise mai sus, pot sări la capitolul următor fără a pierde nimic Învățare structurală: Structuri recursive Ideea principală a metodei Începem prin a considera cel mai simplu caz de antrenare a unui singur modul recursiv, unde intrarea este o secvență (infinită) de caractere dintr-un alfabet A - {$i, , corespunzătoare hipercoloanei receptoare care conține K coloane Este necesar să se construiască un model de date care să captureze tiparele existente în fluxul de intrare și să fie capabil să genereze secvențe de caractere observabile Prin învățare structurală, vom înțelege construcția și utilizarea structurilor recursive pentru modelarea datelor - arbori binari cu simboluri ale alfabetului original ca "frunze" Antrenament, adică extinderea treptată a setului folosit de arbori se va baza pe un simplu calcul al corelaţiilor de frecvenţă dintre aceştia Rezultatul învățării este un dicționar de structuri {rw, , w&} și un tabel de corelare a observațiilor lor comune Rir = RWiwr într-un anumit context După cum știți, învățarea este strâns legată de compresia datelor folosind modele: orice compresie a datelor se bazează pe modelele lor inerente Cu cât putem descoperi mai multe modele, cu atât mai multă compresie a datelor putem obține și modelul nostru va fi mai predictiv Astfel, scopul învățării Învățare structurală este compresia maximă posibilă a datelor sursă (vezi Secțiunea ) Imaginează-ți că avem o secvență destul de lungă de caractere într-o limbă pe care nu o cunoaștem, iar sarcina noastră este să construim un model al acestei limbi care să atribuie o anumită probabilitate oricărui pasaj de text în această limbă, pe baza cunoașterii combinațiilor caracteristice de caractere (morfeme) acestei limbi şi frecvenţele de utilizare a acestora Operația de bază pentru construirea unui astfel de model morfologic este extinderea alfabetului original, care asigură compresia maximă a informațiilor Pentru a face acest lucru, numărăm de câte ori personajele apar unul lângă celălalt, iar dacă acest număr atinge un anumit prag Rir > Rțy introducem un nou caracter pentru această pereche Ulterior, de îndată ce întâlnim această pereche, o înlocuim cu un nou caracter, reducând astfel lungimea mesajului codificat (vezi Fig ) Vom numi un astfel de alfabet extins dicționar Formal, modelul de învățare poate fi reprezentat ca: M = {(wi, wr) -> (wir, Rir)}, unde wir - wi /\wr este un copac cu ramuri wpwr Dacă arborele corespunzător nu este în dicționar, adică Rir clinica - zeu balistic > creator - zeu balistic > test - planta purceilor > lactate - cărbune chirurgical > incizie - lumina spatiala > iesire - marmură istorică > mare - marmură istoric > monument - roșu albastru > steag - rosu albastru > laser Orez Jucând în asociere cu Golem (Răspunsurile lui Golem sunt probabiliste, adică pot să nu fie repetate) PWtWt+l ° [[M-a plimbat pe Sasha] [pe autostradă]] [și [suge uscat]] P(tm)t(tm)t+i ° [M-a plimbat pe Sasha] [pe autostradă] și [aspirat] Orez Analiza de jos în sus a propozițiilor prin îmbinarea sintagmelor cele mai puternic legate (PwiWj ~ probabilitatea de îmbinare a sintagmelor Wi, Wj) Învățare structurală profundă a limbilor Golem : Analiza propoziției [ (gloky)(kuzdra)(shteko)(bodlanula)(bokra) ][ (și)(bucle)(bokra) ] [(gloky)(kuzdra) ][ (shteko)(bodlanula)(bokra) ][ (și )(bucle) ][ (bucle) ] [(lucioasă) ][ (kuzdra) ][ (shteko)(bodlanula) ][(bocra) ][ (și) ][ (bucle) ][ (bucle) ] Golem : Analiza propoziției [ (bancă)(rusă)(standard) ][ (primit)(credit)(evaluare) ][ (de la)(agenție)(toodu)(către) ] [ (bancă) ][ (rusă) (standard) ][ (primit) ][ (credit)(evaluare) ][ (de la)(agenție) ][ (moody)(e)] Par e [ (bancă) ][ (rusă) ][ (standard) ][ (primit) ][ (credit) ][ (evaluare) ][ (de la) ][ (agenții) ][ (moody) ][(h)] CIEAG Orez Exemple de analiză a propozițiilor de către Golem (parsing Ordinul al -lea, vezi secțiunea ) Orez Trecerea de la nivelul combinațiilor de litere la nivelul combinațiilor de cuvinte folosind alfabete sintactice și semantice discrete Alfabetul POS CREIER ȘI LIMBAJ Compresia semantică codifică semnificația (bazele) semantice ale fiecărui cuvânt S(w) = {Si, , Sn} printr-o mulțime de N numere - numerele clusterelor semantice corespunzătoare obținute în N grupări diferite ale spațiului semantic Ca fig , cu cât se potrivesc mai multe componente ale codului semantic a două cuvinte, cu atât semnificațiile lor semantice sunt mai apropiate Similar cuvintelor individuale, combinațiile de cuvinte își primesc și codurile semantice, le putem numi combinații semantice, definite ca W structuri construite pe N alfabete semantice de bază Un dicționar de combinații de semnificații poate conține zeci de milioane de markeri semantici bine reglați, de exemplu, indivizi - politicieni, așa cum este ilustrat în Fig Un Golem antrenat "înțelege" și scenarii tipice - cine face ce, când și cum, de exemplu - ajunge într-un mare oraș metropolitan În mod similar, în Golem se formează concepte separate, de exemplu, despre mărcile de mașini de lux Ca și în cazul sensurilor semantice ale cuvintelor, semnificațiile frazelor sunt cu cât mai apropiate unele de altele, cu atât mai multe componente ale codurilor semantice au aceleași, care pot fi folosite, de exemplu, în căutarea semantică Astfel, un Golem antrenat marchează automat textele cu milioane de coduri semantice diferite - marcatori ai semnificațiilor cuvintelor, frazelor și frazelor individuale El folosește propria sa ontologie a semnificațiilor obținute ca rezultat al învățării independente - atunci când citește și analizează matrice mari de text Căutare semantică Un exemplu evident de aplicare practică a codificării semantice este căutarea semantică Un motor de căutare obișnuit construiește un index invers pe componentele lexicale ale textului - cuvintele și tulpinile lor În consecință, el nu înțelege nici apropierea dintre sinonime, nici diferența de semnificații a aceluiași cuvânt în contexte diferite De exemplu, cuvântul Învățare structurală profundă a limbilor : Codificare rară a valorilor frazei despre OS Viktor Fiodorovici Ianukovici Anatoly Borisovici Chubais Dmitri Anatolievici Medvedev Alexandru Grigorievici Lukașenko Andrei Viktorovici Iuşcenko ajuns la paris ajuns la paris jeep audi SUV bmw întors la Paris ASONS LA LONDRA va ajunge la Kiev masina mercedes jeep lexus camion mercedes întors la Ankara a intrat în Irak plecat în Egipt autobuz toyota mașină lada microbuz gazelle Orez Codificare discretă rară a semnificațiilor semantice ale frazelor Fiecare frază este codificată de trei numere - numere de structuri din dicționarul semantic, combinații tipice de sensuri de bază Cu cât mai multe componente ale codului semantic a două fraze coincid, cu atât semantica lor este mai apropiată valorile CREIER și limbaj "sticlă" poate fi fie un substantiv, fie un verb, în funcție de context Dar într-o expresie specifică, de exemplu, "sticlă de cuarț" sau "sticlă în râu", această ambiguitate dispare în mare măsură Motorul de căutare semantică este conceput pentru a depăși aceste deficiențe inerente ale căutării lexicale prin codificarea conținutului semantic al textului Reprezentarea tradițională vectorială a semanticii cuvintelor și propozițiilor {word vec, sent vec), care este utilizată pe scară largă în practică, are mai multe dezavantaje În primul rând, vectorii semantici, de regulă, au un număr mare de componente mici, adică codificarea vectorială este în mod evident redundantă și, prin urmare, costisitoare din punct de vedere computațional În al doilea rând, și acest lucru este important, căutarea într-un spațiu semantic de dimensiuni înalte este foarte costisitoare Este ușor să comparați vectorii de sens dați între ei, dar este dificil să rezolvați problema inversă - să găsiți vectori cu simțuri similare Codificarea discretă rară a semnificațiilor este lipsită de aceste neajunsuri În primul rând, în loc de componentele obișnuite d ~ IO ale vectorului semantic, puteți utiliza N ~ elemente ale dicționarului semantic În al doilea rând, este posibil să se organizeze o căutare semantică eficientă folosind un index invers pe coduri discrete ale dicționarului semantic Obținem o căutare după semnificațiile cheie, care este destul de similară cu o căutare obișnuită după cuvinte cheie Aceasta înseamnă că căutarea semantică poate fi la fel de rapidă ca căutarea obișnuită Un motor de căutare semantică poate folosi milioane de categorii semantice pentru a găsi faptele care le conțin, fără a folosi cunoștințe lingvistice a priori, fără a codifica manual aceste categorii și cu viteza unei căutări lexicale convenționale! Astfel de concepte de nivel înalt formează un spațiu de caracteristici destul de reprezentativ pentru diferite tipuri de aplicații practice, cum ar fi analiza sentimentului afirmațiilor, selectarea entităților numite, recunoașterea rolurilor în dialoguri și multe altele Cum creierul codifică limbajul Rata de învățare Viteza tipică de analizare și antrenament a unui Golem pe un computer obișnuit este de aproximativ GB/oră Ținând cont de faptul că învățarea structurală profundă implică mai multe etape, inclusiv trecerea de la un alfabet obișnuit la unul semantic, Golemul atinge nivelul de înțelegere a semnificațiilor semantice ale frazelor după aproximativ - de ore de antrenament asupra matricei de Wikipedia în limba rusă (" GB"), în funcție de parametrii de antrenament Pentru comparație, antrenarea unui model de rețea neuronală a unei limbi pe un corpus de dimensiuni comparabile poate dura de la la de zile CPU [Mikolov et al , ], i e antrenamentul de backpropagation este mult mai scump Cum creierul codifică limbajul În această secțiune, ne uităm la modul în care structurile morfologice și semantice ale limbajului pot fi reprezentate în creier Modelul "organului limbii" Secțiunea am stabilit că toate limbile umane au o proprietate generică în comun: natura recursivă a constructelor limbajului Prin urmare, există un mecanism destul de general în creier care implementează o astfel de recursivitate Pornim de la ipoteza că modulele recursive sunt un astfel de mecanism (vezi Secțiunea ) Partea centrală a modulului în procesul de învățare grupează un set de semnale de intrare, reprezentându-le ca simboluri discrete (în termenii noștri, formează un alfabet semantic) Partea periferică a modulului codifică secvențe tipice ale acestor simboluri (în termenii noștri, formează un dicționar de morfeme ale nivelului corespunzător) Ierarhia modulelor recursive oferă o învățare structurală profundă, în cazul nostru, limbajul CREIER și limbaj Sistemul de învățare a limbii Golem descris mai sus corespunde modelului "organului limbajului" prezentat în Fig Orez Modelul "organului limbajului" Golem constă din mai multe module de bază recursive La nivelul inferior, sunt recunoscute secvențe tipice de litere (morfeme) Secvențele caracteristice de morfeme sunt analizate în module sintactice și semantice (specializate în diferite tipuri de morfeme - desinențe și tulpini ) Semnificațiile cuvintelor și propozițiilor sunt codificate prin mai multe module semantice (doar două sunt prezentate în figură, pentru concizie), deci zona semantică a cortexului din creier ar trebui să ocupe de câteva ori mai mult spațiu decât sintactic Pentru a evalua dimensiunile fizice ale zonelor lingvistice din cortex, este logic să presupunem că modulele recursive corespund unor module corticale de ~ , cm din secțiunea , dezinhibați de ganglionii bazali Un astfel de modul recursiv constă din N ~ hipercoloane, fiecare conținând K și de coloane (numărul tipic de caractere dintr-un alfabet sau foneme dintr-o limbă), care este destul de capabil să Cum creierul codifică limbajul asigura o diversitate suficientă a codificate rare pozitii Alfabetele morfologice și sintactice (litere și părți de vorbire) sunt destul de compacte, iar zonele lor corespunzătoare din creier pot fi reprezentate de unul sau mai multe module recursive fiecare Cu toate acestea, alfabetul semantic de bază este mai extins și poate conține multe sute de "sensuri de bază", de exemplu, în funcție de numărul de caractere de bază în chineză, care pot corespunde codurilor semantice În consecință, aria semantică a creierului este mult mai mare decât zonele fonetice și sintactice și poate conține zeci de module recursive cu o suprafață totală de câțiva cm În același timp, pentru persoanele care vorbesc mai multe limbi, semantica diferitelor limbi poate fi codificată de aceleași module semantice care primesc semnale de intrare de la diferite module morfologice și sintactice ale diferitelor limbi Aceasta ar explica faptul binecunoscut că fiecare limbă succesivă este mai ușor de învățat decât precedenta Utilizarea limbajului este înscrisă în niveluri superioare, supralingvistice ale gândirii, care determină, de exemplu, logica dezvoltării dialogului și intențiile subiectului în cursul comunicării Toate aceste niveluri necesită și reprezentarea lor în creier De exemplu, aparent mai mare decât zona lingvistică a lui Broca, locul în ierarhie este ocupat de a -a zonă Brodmann - cea mai mare la oameni (dimensiunea sa relativă este de două ori mai mare decât cea a unei zone similare a unui cimpanzeu) * * înțeles Dacă presupunem că cel puțin jumătate din hipercoloanele modulului sunt implicate în codificarea modelelor, i e numărul de coloane active n > , varietatea codurilor Q = (A^c) > • IO este mai mare decât numărul de evenimente mentale pe care o persoană le observă în întreaga sa viață Care corespunde dimensiunilor caracteristice a de regiuni funcționale identificate de Power, Cohen et al , ( cm / ≈ cm ) Al zecelea câmp Brodmann al unei persoane îl conține în fiecare emisferă de milioane de neuroni, adică de mii de coloane, ceea ce este în ipotezele noastre corespunde aproximativ de module recursive CREIER ȘI LIMBAJ dar astfel încât capacitatea de a vorbi în homo sapiens (sau chiar în homo erectus, conform Everett, ) a necesitat o creștere substanțială a dimensiunii cortexului de asociere Dar este limba într-adevăr atât de importantă pentru a provoca o creștere atât de rapidă a creierului în genul Homo - de trei ori în două milioane de ani? Se dovedește că da Cu cât cantitatea de memorie este mai mare, de ex zona neocortexului, cu atât mai utile meme (abilități, trucuri, trucuri) pot fi amintite Și cu cât o comunitate acumulează mai multe astfel de meme, cu atât va avea mai multe avantaje competitive în comparație cu vecinii săi Și pentru schimbul eficient de meme în comunitate, prezența limbajului este critică A Markov și M Markov, au investigat evoluția comună biologică (gene) și culturală (meme) a genului homo În modelul lor computerizat, fără prezența limbajului, creierul a crescut de maximum o dată și jumătate, iar odată cu includerea limbajului în model, de trei ori Limbajul ca modalitate de transmitere a memelor (complexe) implică feedback pozitiv: cu cât capacitatea de limbaj este mai bună, cu atât memele sunt mai ușor de învățat și cu atât este mai profitabil să ai un creier mare, ceea ce la rândul său crește capacitatea de limbaj Deci, se pare, într-adevăr, că limba a fost cea care practic a "întins" neocortexul la strămoșii noștri O altă consecință utilă pentru noi a invenției limbajului este creșterea duratei vieții noastre - dublarea, după același model Și este clar de ce - bătrânii sunt păstrătorii cunoștințelor acumulate de-a lungul vieții lor lungi, mentori pentru tineri Se știe, în plus, că zonele creierului asociate cu limbajul sunt activate și la efectuarea altor acțiuni complexe asociate cu planificarea pe mai multe niveluri În special, fabricarea unor instrumente destul de complexe ale culturii Acheulean Homo erectus, așa cum a fost demonstrat experimental de Faisal și colab , , activează și zona lui Broca Trecerea la cultura Acheuleană (de la cultura Olduvai mai primitivă homo habilis) a fost doar însoțită de o creștere a dimensiunii creierului Prin urmare, genele responsabile de dezvoltarea limbajului Cum creierul codifică limbajul regiuni ale creierului, au contribuit simultan la alte meme potențial utile Cu toate acestea, principalul instrument al unei persoane este încă o altă persoană, capacitatea de a-și manipula comportamentul, în mare parte datorită limbajului Cum este reprezentat limbajul în creier Unde exact în creier pot fi localizate modulele de limbaj descrise mai sus? Numeroase date experimentale indică faptul că există zone specifice ale creierului uman care lucrează cu limbajul, situate la majoritatea oamenilor în regiunea temporală stângă Acestea sunt mai multe zone conectate în perechi separate printr-o brazdă laterală Se crede că părțile din față sunt responsabile pentru sinteza vorbirii, iar părțile din spate sunt responsabile pentru recunoaștere În modelul nostru, aceste zone corespund secțiunilor motorii și senzoriale ale ierarhiei generale a modulelor recursive responsabile de învățarea limbilor străine Într-adevăr, conform Pulvermiiller, , la fiecare nivel ierarhic, zonele motorii și senzoriale lucrează împreună (una în zona lui Broca, cealaltă în zona lui Wernicke, vezi Fig ) Este logic să presupunem că zonele corticale care lucrează cu foneme corespund primului nivel morfologic al modelului nostru Urmează niveluri superioare de procesare - sintactică și semantică Potrivit lui Vygotsky, ar trebui să distingem între semnificațiile cuvintelor și semnificațiile lor [Vygotsky, ] Semnificațiile sunt determinate de natura utilizării cuvintelor în limbă și sunt mai mult sau mai puțin aceleași pentru toți vorbitorii nativi cu experiență lingvistică similară Aceste zone lingvistice le-am avut în vedere mai sus când am vorbit despre semantică Semnificațiile, potrivit lui Vygotsky, reflectă asocierile cuvintelor nu unele cu altele, ci cu impresii senzoriale subiective și experiențe emoționale și sunt determinate de experiența individuală de viață a unei persoane Aceste asociații semantice sunt dispersate în tot CREIER și limbaj Activarea senzorio-motorie corelată Orez Ierarhia modulelor de limbaj co-funcționale în zonele motorii și senzoriale ale creierului În modelul nostru, zonele M -A corespund modulelor morfologice, PM-AB sintactice și PF-PB semantice [Pulvermiiller, ] Cum creierul codifică limbajul cortexul social și nu se limitează la zona de limbaj propriu-zisă Figurat vorbind, limbajul este doar limbajul creierului-clopot Întregul creier răspunde fiecărui cuvânt cu un bâzâit de asocieri (deci, de altfel, se nasc metaforele) Recent, Huth et al , au alcătuit un atlas de astfel de asociații semantice, confirmând astfel conceptul lui Vygotsky experimental (vezi Fig ) Acest atlas ilustrează în mod clar cât de profund este pătrunsă gândirea noastră de limbaj Cei interesați pot vizualiza acest atlas interactiv la http://gallantlab org/huth Cu precizia unei hipercoloane din modelul nostru, arată care zone corticale răspund și cât de puternic la cele de cuvinte englezești cele mai comune În detaliu, aceste asocieri semantice sunt diferite pentru diferiți subiecte, dar în mare măsură au multe în comun: diferite tipuri de cuvinte sunt situate în aceleași zone ale creierului Mai mult, în conformitate cu modelul nostru, nu unul, ci mai multe module corticale răspund la fiecare cuvânt Rezumând această secțiune, aspectul ipotetic al modulelor recursive ipotetice din creier este ilustrat în Fig Antrenamentul lor se desfășoară în etape Conform teoriei noastre, ierarhia modulelor de limbaj este construită de jos în sus, nivel cu nivel Așa se dezvoltă un copil Morfemele limbii materne, așa cum am menționat deja, încep să fie recunoscute de creierul copilului de la vârsta de luni De la vârsta de aproximativ un an, când copiii trec de la cuvinte simple la utilizarea expresiilor, încă nu fac distincția între regulile gramaticale Expresiile sunt folosite ca cuvinte combinate De la vârsta de un an și jumătate, copiii încep să folosească cele mai simple tipare: de exemplu: "dă "mai mult care apoi se transformă în așa-numitele insule verbe Copiii din această perioadă vorbesc în fraze scurte, Pentru o cunoaștere rapidă, doar vizionați videoclipul https: // www youtube com/watch?v=k nJkx aDQ, merită! CREIER și limbaj Orez Atlas de asociații semantice de de cuvinte englezești [Huth et al , ] Cum creierul codifică limbajul Semantică (sensuri) Orez Posibile locații ale diferitelor module de limbaj în creier atenția lor este limitată la un interval mic de timp Dar la vârsta de , - ani, copilul are o explozie gramaticală, și începe să construiască corect propoziții (formează el un alfabet POS?) Până la începutul vârstei școlare, copilul stăpânește legăturile dintre propozițiile individuale, folosind particulele "deși", "desigur" și altele La aceeași vârstă, începe să folosească limbajul ca ajutor pentru gândire, ca instrument de planificare a acțiunilor sale (folosind alfabetul SEM?) [Burlak, ] Procesul de achiziție a limbajului de către un copil demonstrează modul în care creierul stăpânește treptat toate noile niveluri ierarhice de planificare și organizare a acțiunilor sale Această secvență de învățare profundă este logic inevitabilă, așa cum acumularea unui eşantion de pregătire pentru niveluri ierarhice din ce în ce mai înalte necesită din ce în ce mai mult timp Cel mai inalt CREIER și limbaj Podelele gândirii simbolice se "maturează" (mielinizate) abia până la vârsta de de ani Spre deosebire de oameni, numărul de niveluri de gândire în mașinile de învățare nu este limitat de nimic altceva decât de volumele de date și capabilitățile hardware Ambele sunt din abundență astăzi Prin urmare, nu este dificil să ne imaginăm viitoarele superinteligențe în centre de date puternice, scanând toate publicațiile științifice în diferite limbi și extragând cunoștințe din ce în ce mai profunde din ele Atât de adânci încât pot deveni inaccesibile înțelegerii oamenilor Dar dacă este posibil să vorbim limbajul uman cu aceste supraintelectuale, ei vor putea să-și fundamenteze concluziile, sau cel puțin să le explice metaforic, ca Golem XIV Lem, oferă transcrieri interesante ale unor astfel de conversații Discuţie Ca de obicei, încheiem prin a discuta ideile ridicate în acest capitol în contextul lor istoric Cum a evoluat relația dintre lingvistică, învățarea automată și științele creierului? În anii Secolului lingviştii, la sugestia lui Noam Chomsky, au definit limbajul ca un sistem de reguli care generează enunţuri corecte din punct de vedere gramatical Aceste reguli sunt de natură logică, nu statistică: frazele rare trebuie să respecte aceleași reguli ca și cele frecvente Această paradigmă este contrară spiritului învățării automate bazate pe modele statistice din date, care, potrivit autorului, a determinat soarta dificilă a învățării limbajului automat Cu aceeași dimensiune a eșantionului de antrenament, timpul de antrenament crește proporțional cu lungimea tiparelor de timp Un copil începe să folosească cuvinte individuale la an, stăpânirea frazelor scurte necesită - ani, iar dezvoltarea deplină a capacităților lingvistice necesită - de ani, proporțional cu lungimea tipică a propozițiilor Discuţie Specialiștii în învățarea automată au preluat limba atunci când zona era deja "delimitată" și destul de "arată" de lingviști Pentru a profita de rezultatele disponibile, ei au adoptat din lingvistică atitudinile și abordările sale de bază pentru rezolvarea problemelor practice [Jurafsky și J Martin, ] Drept urmare, multă vreme în domeniul Prelucrării Limbii Naturale au dominat metodele de predare "cu profesor", care foloseau dicționare create de lingviști și corpuri de text marcate de aceștia cu zeci de mii de exemple de parsare corectă a propozițiilor Învățarea automată a fost folosită pentru a găsi sistemul prețuit de reguli care definesc gramatica, într-un format dat de lingviștii teoretici și folosind categoriile gramaticale de cuvinte pe care le-au dat [Keen și Manning, ] Algoritmii de căutare a unui sistem de reguli gramaticale cu inevitabilele numeroase excepții se dovedesc a fi destul de greoi, iar pregătirea necesită corpuri scumpe Ca rezultat, viteza celor mai buni parseri care analizau propoziții conform tiparelor stabilite de lingviști în anii a fost de zeci de propoziții pe secundă (aproximativ MB/oră) [Nozhov, ] O astfel de viteză de marcare sintactică a textelor este cu trei ordine de mărime și jumătate mai mică decât viteza de indexare a textului de către motoarele de căutare convenționale (aproximativ MB/s) Această barieră a limitat mult timp utilizarea practică a lingvisticii computaționale La asemenea viteze, nu se punea problema vreunei analize semantice la scara Web-ului Până de curând, aplicațiile practice ale învățării automate se limitau la cele mai simple modele de limbaj care nu implicau identificarea structurilor profunde ale limbajului Acestea sunt modele (de exemplu, cuvântul model coș [Salton și colab , ] sau n-grame [Brown și colab linia CREIER ȘI LIMBAJ Cu toate acestea, în ultimii ani a existat o dorință din ce în ce mai mare pentru o analiză mai profundă a conținutului Web-ului Ca urmare a eforturilor colective, viteza de analizare a fost crescută la de propoziții pe secundă [Volokh și Neumann, ] fără pierderi semnificative de calitate Cu toate acestea, toate aceste realizări s-au bazat încă pe corpuri marcate de lingviști, disponibile doar pentru câteva limbi și în principal în genul publicațiilor din ziare Specificul publicațiilor științifice bogate în termeni diverși și stiluri conversaționale ale blogosferei pline de neologisme rămân în afara sferei acestor mostre de instruire Învățarea "nesupravegheată", care nu implică utilizarea bagajului lingvistic acumulat, a pătruns în această zonă cu mare dificultate În primul rând, s-a lovit de rezistența naturală a întregii comunități lingvistice Și în al doilea rând, primele încercări de a preda limba "de la zero" au dat rezultate semnificativ mai proaste decât cele obținute "cu un profesor" Exista opinia că construcțiile lingvistice erau prea complexe pentru a fi detectate automat, fără participarea lingviștilor Cu toate acestea, odată cu succesul revoluției învățării profunde, a existat o credință tot mai mare că sursa regulilor lingvistice este în cele din urmă o limbă vie, iar abordarea de jos în sus a limbii, de la date la reguli, nu este mai puțin justificată decât abordarea tradițională de sus în jos din teoriile pozițiilor La urma urmei, copiii nu învață limba din cărțile de gramatică! De ce învățarea automată nu ar trebui să urmeze aceeași cale? Poate că creierul nu cunoaște niciun sistem rigid de reguli, ci pur și simplu asimilează treptat cele mai comune modele de construcție a cuvintelor și a propozițiilor din limbă? Susținătorii acestui punct de vedere solicită îndepărtarea de la interpretarea limbii ca sistem formal de reguli în favoarea studierii mecanismelor reale de dobândire a limbajului de către copii Chomsky și adepții săi cred că o persoană are un anumit organ în creier pentru operații simbolice Discuţie walkie-talkie și consideră limbajul ca un instinct inerent numai omului [Chomsky, ; Hauser şi colab , ; Pinker, ] Oponenții lor, precum Tomasello, , cred că limbajul, dimpotrivă, folosește abilitățile de bază ale creierului pentru a-și aminti și a recunoaște modele care se repetă în lumea exterioară Același punct de vedere, desigur, aderă la autor Limbajul evoluează mult mai repede decât creierul Daneza și engleza s-au separat destul de recent - acum câteva mii de ani, și totuși sunt deja limbi diferite Prin urmare, limbajul, în evoluție, a trebuit să se adapteze foarte bine la creier Asemenea unui virus informatic, limbajul "a pătruns în sistemul de operare al creierului" și cei doi au trăit în simbioză de atunci Acesta este motivul pentru care Deacon, , explică similitudinea izbitoare a tuturor limbilor, ceea ce l-a condus pe Chomsky la ideea sa de o gramatică universală înnăscută "Ce spun categoriile de limbaj despre gândire?" Lakoff, a pus această întrebare în subtitlul minunatei sale cărți Certându-se cu Chomsky, care consideră gramatica ca fiind independentă de restul cunoștințelor, el susține că limbajul folosește aparatul conceptual general al creierului: "Raționamentul bazat pe cazuri tipice este unul dintre cele mai importante aspecte ale gândirii umane" Gândirea noastră se bazează pe prototipuri Clasificăm lumea nu după reguli formale, ci în funcție de apropierea de prototipul corespunzător în funcție de totalitatea trăsăturilor Un fost student al lui Chomsky, Jackendoff, , de asemenea, nu consideră că sintaxa este o componentă centrală a limbajului și aduce argumente puternice că toate cele trei subsisteme ale limbajului (fonologie, sintaxă și semantică) interacționează activ între ele El consideră că definirea structurilor mentale din spatele acestor subsisteme și a interfețelor dintre ele este o problemă cheie în științele cognitive Aceasta este abordarea pe care am adoptat-o în acest capitol Am căutat în mod constant să determinăm structura și funcțiile subsistemelor implicate în lucrul cu limbajul, precum și interfețele dintre ele CREIER ȘI LIMBAJ Prin adoptarea hărților recursive de auto-organizare ca model pentru secțiunile asociative ale cortexului, credem că atât funcționarea limbajului, cât și gândirea umană în general se bazează cu adevărat pe prototipuri Și modelul nostru arată exact cum se formează aceste prototipuri în procesul de achiziție a limbajului Potrivit autorului, algoritmii de învățare structurală profundă sunt cei care stau la baza competenței noastre lingvistice Nu este nevoie să cauți un sistem de reguli logice acolo unde nu există Golemul creat pe baza acestor reprezentări poate fi folosit în aplicații practice De exemplu, autorul a dezvoltat un motor de căutare semantic care folosește indexarea semnificației propozițiilor pentru a căuta și a colecta fapte cu privire la orice problemă Golem învață suficient de repede și analizează propozițiile cu viteza celor mai buni analizatori descriși în literatură În același timp, spre deosebire de acesta din urmă, nu utilizează baze de date lingvistice, dicționare sau corpus Având acces la matrice mari de text, el poate învăța orice limbă și poate stăpâni jargonul științific al oricărui domeniu de cunoaștere, sporindu-și constant competența pe măsură ce învață Cunoștințele acumulate de lingvistică au fost folosite de noi implicit, în raport cu mecanismele scoarței cerebrale Ca urmare, algoritmii Golem nu au redundanța caracteristică modelelor de limbaj create "din primele principii" [Collobert et al , ] Dacă modelul nu include arhitectura corectă de procesare a datelor, antrenamentul poate necesita resurse de calcul prea mari Aceasta este valoarea practică a modelării competenței de limbaj uman În sfârșit, să vorbim despre modul în care învățarea limbajului automat poate ajuta la crearea unor mașini cu adevărat inteligente Sau, dacă priviți din cealaltă parte, ce îi lipsește actualului Golem pentru a fi considerat intelectual? Discuţie Pentru a face acest lucru, Golemului îi lipsesc cel puțin trei lucruri: capacitatea de a vorbi, dorința de a spune ceva și conținutul mesajului în sine În ordine Pentru a ne apropia și mai mult de modul în care un copil învață o limbă, în algoritmul de învățare ar trebui să fie integrat un instinct adecvat care să vizeze generarea vorbirii Antrenamentul ar trebui să conțină încă de la început o buclă de feedback: auzit - înțeles - reprodus, în timp ce până acum antrenamentul lui Golem a vizat doar înțelegerea limbajului Dar schema generală a învățării prin întărire profundă oferă tocmai o astfel de abordare a activității pentru achiziția limbajului La urma urmei, limbajul este un instrument de comunicare activă Și în centrul oricărei comunicări este un scop Pentru a spune ceva, trebuie să ai nevoia de a comunica ceva Nu este suficient să poți vorbi, trebuie să știi și ce vrei să spui Comunicarea în sine ar trebui să fie o etapă în atingerea unui obiectiv Adică, Golemul trebuie să învețe să-și stabilească propriile obiective și să dezvolte planuri pentru a le atinge Și aici ajungem la punctul cheie - legătura limbajului cu lumea exterioară Creierul este uriașul controlor al comportamentului nostru în lume Limba este doar subsistemul său, ajutându-ne să participăm la activitățile colective ale oamenilor Prin urmare, limba nu poate fi stăpânită în afara cadrului acestei activități colective Nu vor exista mașini care vorbesc până când nu vor deveni roboți care simt și acționează în lumea reală împreună cu oamenii După cum spunea Zarathustra: "Există în mine ceva nesățios, nesățios; vrea să vorbească " Golemul de astăzi este încă foarte departe de asta Acest lucru și multe alte lucruri vor fi spuse în prelegerile sale din de descendentul său genial - Golem-XIV Capitolul Direcții de dezvoltare Creatorul caută însoțitori și pe cei care vor culege recolta împreună cu el: căci totul este copt la el pentru recoltă Dar îi lipsesc sute de seceri Vreau să mă alătur celor care creează, adună recolta și sărbătoresc: vreau să le arăt curcubeul și toți pașii către supraom Acum cântarul este echilibrat și nemișcat: le-am aruncat trei întrebări grele, trei răspunsuri grele sunt purtate de o altă scală Friedrich Nietzsche "Așa a vorbit Zarathustra" DIRECȚII DE DEZVOLTARE Acest capitol este, într-un fel, cel cheie și tocmai pentru acest capitol a fost concepută această carte Până acum, fiecare capitol a început prin a pune întrebări, la care am continuat să găsim răspunsuri Desigur, nu definitiv, adesea controversat, dar totuși răspunsuri În acest capitol, vom discuta întrebări la care autorul, și nu numai el, nu au încă răspunsuri Vom vorbi despre domenii promițătoare pentru dezvoltarea inteligenței mașinilor Vom formula aceste probleme sub forma a trei proiecte, complexe și riscante, dar, din punctul de vedere al autorului, fezabile la un anumit nivel de dezvoltare tehnologică Cel puțin, întreaga prezentare anterioară ar fi trebuit să conducă cititorul către acest punct de vedere Acestea vor fi proiecte inovatoare ambițioase, cu un mare potențial comercial, bazate pe crearea de noi tehnologii, proiecte care au fost discutate în capitolul și la care autorul însuși ar lua parte cu bucurie dacă s-ar aduna o echipă "vedetă" potrivită Într-un fel, această carte poate fi privită ca un fel de apel la formarea unor astfel de echipe Cele trei proiecte propuse aici reprezintă dezvoltarea ideilor celor trei capitole precedente, opțiuni pentru implementarea lor practică Fiecare dintre ele poate fi considerată ca pregătire pentru alpinism pentru asaltul unui vârf de munte serios - stabilirea unui traseu și organizarea opririlor intermediare Planurile prezentate mai jos sunt, de asemenea, o etapă necesară a acestei lucrări preliminare Asadar, haideti sa începem Model de lucru al creierului Problemă: Cum funcționează creierul nostru? Richard Feynman a spus odată: "Ceea ce nu pot recrea, nu înțeleg" Din acest punct de vedere, noi încă L D Landau a exprimat aceeași idee în felul său: a împărțit toate științele în naturale și nenaturale după aproximativ același criteriu - prezența modelelor predictive Model de lucru al creierului înțelegem cum funcționează creierul nostru, cum funcționează psihicul uman și cum este conectat unul cu celălalt Modelele existente în neuroștiință (neuroștiință computațională) nu oferă un răspuns la această întrebare fundamentală Știm multe despre modul în care funcționează neuronii individuali, despre cum sunt transmise semnalele între ei și putem modela ansambluri destul de mari de rețele neuronale artificiale cu milioane de neuroni [Izhikevich și Edelman, ] Ca urmare a proiectului European Human Brain Project la scară largă, a fost creat un model de operare al unei piese din neocortex cu o compoziție realistă a neuronilor și structura conexiunilor dintre ei [Markram et al , ] Cu toate acestea, astăzi nu există nici măcar un model de lucru aproximativ al creierului ca sistem complet capabil să învețe un comportament complex direcționat către un scop Și este imposibil să înțelegem creierul izolat de funcția sa principală Pentru a înțelege modul în care fizicul este legat de mental, este nevoie de o nouă abordare a creierului - din punctul de vedere al teoriei învățării automate Modelele fizicale nu vor ajuta aici, pentru că în fizică, nu există concepte de scop și comportament intenționat, care sunt de bază pentru învățarea automată O abordare mai constructivă, din punctul nostru de vedere, este modelarea unei arhitecturi cognitive la scară largă în spiritul lui Eliasmith et al , și Laird et al , , doar într-o versiune mai realistă De fapt, proiectul propus este chemat să rezolve problema fundamentală a conexiunii dintre creier și gândire prin construirea unui model principal funcțional al creierului, bazat pe biologic, cu proprietățile unui psihic artificial K V În ultimii ani, Anokhin a promovat constant un program de cercetare similar bazat pe conceptul de spațiu cognitiv pe care l-a propus [Anokhin, , a,b] Proiectul propus poate fi considerat dezvoltarea acestor idei din punctul de vedere al învățării automate Învățarea structurală profundă a capitolului poate fi considerată ca construirea unui cognitpom^ unde DIRECȚII DE DEZVOLTARE simbolurilor și morfemelor de diferite niveluri corespund diferitelor tipuri de roți dințate propuse de K V Anokhin și formează o rețea de concepte dinamice pe deasupra unei rețele statice de conexiuni (volum de conectare a rețelei neuronale) Este clar că pentru început va fi cel mai simplu psihic al unui "animal mic într-o lume mare" , cu un creier simplu Un bun punct de plecare ar putea fi, de exemplu, o analiză sistematică a controlului comportamental pe mai multe niveluri în creierul rozătoarelor [Verschure et al , ] Este important doar ca arhitectura creierului mamiferelor să fie modelată, astfel încât prin creșterea treptată a complexității să putem aduce modelul la nivelul primatelor și, în cele din urmă, al oamenilor Relevanță: prelungirea vieții creierului Cine ar putea avea nevoie de un astfel de model? Sau, mai exact, cine poate deveni "clientul" unui astfel de proiect? Întrebările eterne despre legătura dintre suflet și corp i-au îngrijorat, desigur, de multă vreme pe filosofi și, după ei, pe psihologi și psihiatri, dar nu au demonstrat niciodată o cerere efectivă adecvată problemei Cu toate acestea, se pare că astăzi s-a format deja cererea pentru un model de psihic artificial Tratamentul bolilor nervoase și neurodegenerative reprezintă o pondere semnificativă a cheltuielilor pentru îngrijirea sănătății în țările dezvoltate, cu o populație din ce în ce mai îmbătrânită Dar putem trata în mod eficient bolile creierului fără a înțelege ce fel de tulburări în activitatea sa sunt cauzele lor, de ex fără a înțelege mecanismele creierului, fără a avea un concept al designului său? Pe de altă parte, industria inteligenței artificiale câștigă amploare - agenți și roboți, în principal Pentru a folosi o analogie cu șah, crearea de modele cognitome funcționale este analogă cu stăpânirea artei șahului, un pas natural următor după stăpânirea regulilor jocului Așa se face că ciberneticianul sovietic M L Zetlin Model de lucru al creierului forţa noii ordini tehnologice Tehnologiile moderne de IA îngustă sunt capabile să înlocuiască "munca parțială" cu calificare redusă Pentru o automatizare totală, înlocuirea completă a unei persoane cu agenți și roboți, este nevoie de IA puternică, cu alte cuvinte, psihicul artificial al roboților Simularea psihicului uman este o abordare pentru construirea unei IA puternice Un model funcțional funcțional al creierului va ajuta cu siguranță la crearea unui sistem de operare robotizat, următorul nostru proiect Aceste două proiecte sunt complementare, capabile să genereze idei inovatoare unul pentru celălalt, dar sunt totuși proiecte diferite cu echipe diferite din punct de vedere al competențelor, fiecare cu propriile obiective, strategie și clienți (vezi mai jos) Cu toate acestea, interacțiunea echipelor la nivelul discutării rezultatelor obținute și al brainstorming-ului problemelor cheie poate fi foarte fructuoasă La intersecția acestor proiecte vor fi dezvoltate conceptele și limbajul noii științe a minții, cu aparatul ei matematic și modelele computerizate de gândire, supunând diferitelor construcții teoretice verificării experimentale Soluție: Modele de lucru ale creierului mamiferelor Rezultatul proiectului ar trebui să fie o linie de modele de creier din ce în ce mai complexe, care corespund diferitelor stadii de dezvoltare a creierului mamiferelor Abordarea evolutivă va ajuta la înțelegerea ce sarcini biologice și cum exact au fost rezolvate în cursul evoluției creierului, pentru a urmări geneza principalelor subsisteme funcționale El oferă o metodologie de înțelegere a gândirii de la simplu la complex "Nimic în biologie nu are sens decât în lumina evoluției" - F G Dobzhansky Este important ca toate modelele să fie valabile de la bun început, adică se angajează într-un comportament oportun DIRECȚII DE DEZVOLTARE un anumit repertoriu de scenarii pentru rezolvarea diverselor sarcini de viaţă Abilitatea de a trece de la sarcină la sarcină și de a se concentra pe atingerea obiectivelor locale ar trebui să fie integrată în arhitectura psihicului artificial Cu alte cuvinte, conceptul de sisteme funcționale de P K Anokhin, metodologia de modelare a creierului ca un controlor al comportamentului oportun "Documentația de proiectare" a creierului ca dispozitiv electronic complex trebuie să conțină mai multe niveluri de descriere Nivelul arhitectural clarifică rolul fiecărui subsistem cerebral în contextul relațiilor sale cu alte subsisteme Capitolul oferă o schiță a unei astfel de arhitecturi, explicând rolul unora dintre subsistemele majore ale creierului, modul în care funcționează și modul în care interacționează între ele Dar aceasta nu este nimic altceva decât o schiță Totul trebuie să fie încorporat în modelele de operare ale tuturor subsistemelor principale, asamblate într-un singur model de computer la nivelul următor, funcțional, de descriere Fiecare subsistem al creierului este un fel de termeni de referință pentru dezvoltarea modulului corespunzător al modelului computerizat Diferite grupuri se pot concentra pe modelarea diferitelor subsisteme, iar modelul va permite ca rezultatele lor să fie combinate într-un întreg coerent Proiectul își propune să folosească faptul că natura sa ocupat deja de descompunerea unui sistem complex într-un set de subsisteme mai simple și a găsit structuri adecvate pentru acestea Acestea din urmă sunt descrise prin diagrame schematice mai detaliate - algoritmi pentru funcționarea componentelor individuale ale creierului artificial, care au propriile lor prototipuri biologice Acesta este nivelul principal al neuroștiinței computaționale moderne În cele din urmă, neuroștiința experimentală s-a concentrat până acum pe cel mai scăzut nivel de diagrame de cablare care descriu structura fizică a creierului, cum ar fi conectomul acestuia Modelele de lucru ale creierului pot fi folosite pentru experimente comportamentale cu o varietate de utilizări Model de lucru al creierului psihic artificial și compara aceste rezultate cu experimente reale pe animale De fapt, de la crearea primei versiuni a psihicului artificial, știința gândirii va înceta să mai fie speculativă și va dobândi statutul de știință a naturii capabilă să-și testeze experimental construcțiile teoretice Afaceri: tratamentul și modernizarea creierului Conform intenției autoarei, ambele proiecte, modelarea creierului și crearea unui sistem de operare pentru roboți, ar trebui să se dezvolte în paralel, îmbogățindu-se reciproc cu idei În acest caz, investițiile în proiectul "biologic" vor fi mai mult decât răsplătite odată cu succesul comercial al proiectului "sistemic" Continuând metafora alpinismului, vorbim despre cucerirea unui vârf dublu, Elbrus, de către o IA puternică Totuși, un proiect "biologic" ar trebui să aibă propriile modalități de monetizare a rezultatelor, datorită specificului său De exemplu, în același medicament, un model computerizat al creierului, care permite simularea mecanismelor diferitelor disfuncții, poate ajuta la găsirea de noi ținte pentru medicamentele farmacologice Dar și mai multe oportunități de afaceri interesante se deschid în industria de neuroimplant de astăzi Nu degeaba Elon Musk, cunoscut pentru investițiile sale în proiecte ambițioase cu potențial comercial mare, a fondat startup-ul NeuraLink în pentru a dezvolta neuroimplanturi Și nu numai în scopuri medicinale În viitor, ne așteptăm ca neuroimplanturile să îmbunătățească și să extindă capacitățile creierului uman Este puțin probabil ca viitoarea generație tânără să refuze neurocipurile unei conexiuni permanente la Internet, cu acces instantaneu la toate cunoștințele umane și posibilitatea comunicării "telepatice" între ele și cu roboți Cyborgizarea ar putea deveni o nouă piață de masă, depășind actuala piață a smartphone-urilor (aproximativ de miliarde de dolari, DIRECȚII DE DEZVOLTARE care, de altfel, depășește surplusul de produs al întregii industrii farmaceutice globale [IFPMA, ]) Aici, cel mai probabil, ar trebui să cauți clienți pentru modelul actual al creierului Sistem de operare al roboților Problemă: cum să faci roboții accesibili? În , IBM a anunțat linia revoluționară de computere IBM System / , care a implementat pentru prima dată ideea unei separări clare a arhitecturii și implementarea acesteia, adică ideea unui sistem de operare care permite dezvoltatorilor de software să scape de hardware-ul specific pe care va fi executat Roboții sunt un tip special de hardware pentru computer, având, fără îndoială, nevoie de propriul sistem de operare La urma urmei, vor exista o mulțime de roboți și alții foarte diferiți și va fi mult mai convenabil să avem o singură platformă software comună pentru ei - sistemul de operare al roboților, un fel de psihic artificial bazat nu pe programare, ci pe învățare , mai precis, pe învățarea prin întărire Acesta este cel mai complex tip de învățare, în care roboții înșiși trebuie să ghicească cum ar trebui să acționeze într-o situație dată și să ofere soluții creative sarcinilor care le sunt atribuite, concentrându-se pe evaluarea comportamentului lor de către oameni sau mediu Crearea unui astfel de psihic artificial va depăși puterea viitoarelor companii mici și mijlocii producătoare de roboți Un singur sistem de operare disponibil tuturor va reduce radical costul dezvoltării diferitelor tipuri de roboți și va stimula dezvoltarea roboticii Dacă arhitectura creierului roboților este aceeași, atunci capacitățile lor vor fi limitate doar de puterea dispozitivului Sistem de operare al roboților parte La fel ca și în cazul smartphone-urilor, funcțiile de bază vor fi efectuate la bord, iar diverse extensii vor putea fi încărcate din superinteligențele cloud dacă este necesar Prin urmare, este logic ca noul sistem de operare să fie modular, astfel încât roboții să poată împărtăși cunoștințele, de exemplu module instruite Relevanță: cine va fi următorul Microsoft? Comunitatea de dezvoltare a oricărui sistem de operare este un sistem de feedback pozitiv: cu cât este mai mare, cu atât este mai atractiv pentru noii membri Drept urmare, piața sistemelor de operare se îndreaptă către o mână de câștigători care au fost "la momentul potrivit, la locul potrivit" Așa s-a întâmplat la un moment dat cu Microsoft, care a capturat noua piață emergentă a software-ului pentru computere personale Această poveste se va repeta inevitabil cu roboți Cel care va fi primul care va oferi un sistem de operare adecvat care să permită dezvoltatorilor să configureze în mod uniform roboți de diferite designuri pentru a rezolva o gamă largă de sarcini aplicate va primi un avantaj strategic și o șansă de a-și forma propriul ecosistem și de a monopoliza această piață gigantică în viitorul Ideea acestui proiect este de a fi primul care poate crea un psihic artificial de roboți prin inginerie inversă a arhitecturii creierului Vorbim despre arhitectura de împrumut, curățată de toate artefactele biologice, care deosebește acest proiect de cel anterior Soluție: Învățare prin consolidare modulară ierarhică Crearea unui psihic artificial este un pas natural următor în dezvoltarea revoluției învățării profunde Am ajuns la această concluzie în capitolul , iar în capitolul am sugerat DIRECȚII DE DEZVOLTARE Există o abordare pentru rezolvarea acestei probleme care utilizează trăsăturile caracteristice ale arhitecturii creierului Această abordare se propune să stea la baza acestui proiect, întrucât implementează în mod eficient învățarea prin consolidare profundă, ceea ce le permite roboților să învețe sarcini destul de complexe cu un orizont mare de planificare Este important ca o tehnologie de bază și o idee pentru implementarea proiectului să existe deja, de exemplu Acesta nu este doar un vis, ci un proiect Desigur, acesta este doar începutul, iar lucrarea principală urmează încă să vină De exemplu, dotarea roboților cu emoții și capacitatea de a comunica în limbaje naturale La urma urmei, în cele din urmă, va câștiga sistemul de operare care va oferi oamenilor cele mai simple și naturale modalități de a antrena roboți în diverse profesii umane Succesul unui sistem de operare va fi determinat de utilizatorii săi și anume: • dezvoltatori de tipuri specifice de roboți, stăpânind tot felul de profesii în diverse industrii, de la robotul asistentă infinit devotat până la grădinarul robot infinit de muncitor; • utilizatorii finali ai robotului, care vor trebui să-i explice sarcinile și responsabilitățile actuale, precum și să evalueze calitatea muncii sale Un sistem de operare bun va trebui să ofere o interfață confortabilă pentru aceste grupuri de utilizatori cu roboți și între ei Soluția ideală pentru dezvoltatorii de roboți este următoarea Ei primesc (gratuit!) un psihic artificial gata făcut de robot cu setul necesar de abilități de bază și construiesc în el module suplimentare necesare pentru o anumită profesie Unele funcții vor trebui programate, similar reflexelor înnăscute necondiționate Unele abilități profesionale de bază ale robotului vor trebui învățate, similare antrenamentului, Sistem de operare al roboților formând o ierarhie de reflexe condiționate dobândite peste reflexele înnăscute, astfel încât consumatorii să obțină roboți profesioniști pentru banii lor În consecință, sistemul de operare ar trebui să faciliteze pe cât posibil munca acestor programatori și mentori, de exemplu psihicul artificial ar trebui să fie ușor de modificat și antrenat rapid Mentorii, teoretic, vor fi tocmai oamenii pe care robotul va trebui să-i înlocuiască, la fel cum maestrul transmite elevului secretele profesiei sale înainte de a merge la o odihnă binemeritată Pentru a depăși conflictul de interese rezultat, cunoștințele mentorului trebuie să continue să lucreze pentru el în corpul robotului (vezi mai jos) Pentru utilizatorii finali, este important ca aceștia să poată "explica" cu ușurință robotului ce i se cere în acest moment și că evaluările lor asupra calității muncii sale influențează comportamentul acestuia în viitor, de exemplu astfel încât robotul să poată fi educat (de exemplu, cu o rublă) Adică succesul proiectului va depinde nu numai de tehnologiile dezvoltate, ci și de modelul de afaceri pentru utilizarea noului sistem de operare Poate, de exemplu, următoarea soluție, dezvoltată în comun de echipa de proiect de inițiativă, inclusiv de autor Afaceri: scheme salariale pentru roboți Ce se întâmplă dacă în sistemul de operare al robotului este încorporat un portofel electronic, a cărui completare va fi un semnal de întărire pentru robot, de exemplu îi va afecta psihicul artificial, cum ar fi eliberarea de dopamină în creier Apoi, creșterea robotului va fi strict legată de gradul de satisfacție al utilizatorului cu munca sa Adică, robotul își va construi comportamentul în așa fel încât să-și maximizeze câștigurile integrale, îmbunătățind în același timp calitatea serviciilor sale DIRECȚII DE DEZVOLTARE Pentru ca interesele utilizatorilor și ale producătorilor să coincidă, este logic ca câștigurile roboților să meargă către producători (inclusiv aceiași mentori) Acest lucru este posibil, de exemplu, dacă consumatorii nu cumpără ei înșiși roboții, ci doar serviciile acestora, plătind pentru rezultatele muncii lor, de parcă ar fi angajați Un astfel de model de afaceri, în primul rând, este intuitiv pentru toată lumea și, în al doilea rând, permite consumatorilor să compare cu ușurință prețul și calitatea serviciilor robotizate în comparație cu serviciile similare ale profesioniștilor umani În sfârșit, într-un astfel de model de afaceri, putem evalua aproximativ, pe degete, perspectivele proiectului nostru Să spunem că automatizarea totală a economiei, în care ponderea principală din PIB-ul mondial va fi produsă de roboți, va dura aproximativ de ani și se va produce treptat, la , % din PIB pe an (de la crearea sistemului de operare) de roboți, fără de care este greu de imaginat) Aceasta înseamnă că veniturile totale ale roboților vor crește cu aproximativ de miliarde de dolari anual Dacă furnizorii de sisteme de operare primesc un comision modest de - % din câștigurile din roboți, afacerea lor va crește cu - miliarde de dolari anual timp de peste de ani Sună tentant! În plus, după cum arată exemplul Microsoft, producătorii de sisteme de operare sunt într-o poziție mai bună în ceea ce privește orice aplicație software bazată pe acesta Un singur sistem de operare va face mai ușor pentru roboți să comunice între ei și să-și disperseze psihicul în rețea: lăsați componente critice în corpul robotului însuși și plasați abilități cognitive suplimentare în centre de date puternice ca servicii plătite Similar cu modul în care aplicațiile cloud ne împuternicesc smartphone-urile de astăzi Unul dintre aceste servicii poate fi suprafața artificială descrisă în secțiunea următoare, capabilă să "îmbrățișeze imensitatea" - întregul corp de cunoștințe umane Inteligență expertă Inteligența expertă: dialog cu bazele de cunoștințe Problemă: cum se accelerează cercetarea și dezvoltarea? Peste milioane de articole științifice sunt publicate în fiecare an în lume Nici o singură persoană nu este aproape de a fi capabilă măcar să le privească pe toate, ca să nu mai vorbim de sinteza tuturor acestor piese ale puzzle-ului științific într-un singur sistem de cunoaștere Prin urmare, astăzi toată cunoașterea umană este răspândită printre zeci de milioane de specialiști îngusti și nici unul dintre ei nu are toate informațiile "Specialistul este ca un flux: plenitudinea lui este unilaterală" Viziunea lor asupra lumii este definită de propriul lor subset de cunoștințe, ceea ce le face dificilă comunicarea și încetinește ritmul cercetării și dezvoltării, un avantaj competitiv cheie în lumea de astăzi Dacă ar fi posibil să încărcăm toate cunoștințele umane într-un singur super creier capabil să tragă concluzii și să dea răspunsuri ținând cont de totalitatea cunoștințelor despre orice problemă, un astfel de "cynep-Google" ar fi cu siguranță folosit de toți specialiștii și cercetătorii din lume Spre deosebire de actualul Google, un fel de referință mondială, cynep-Google va trebui să ofere sfaturi detaliate și motivate, cu răspunsuri la întrebări suplimentare, lucrând ca ghid-pilot în domenii de cunoștințe necunoscute utilizatorului De fapt, vorbim despre o versiune de dialog a Wikipedia, unde fiecare remarcă următoare este un articol personalizat care dezvoltă un subiect în contextul dialogului curent De aici și numele proiectului Relevanță: supercalculatoarele așteaptă superinteligență Până de curând, un astfel de proiect era pură fantezie Cu toate acestea, câțiva terabytes de cunoștințe științifice acumulate - DIRECȚII DE DEZVOLTARE aceasta este doar dimensiunea unei unități tipice de computer de acasă * Și "asimilarea", să zicem, • ІО octeți nu mai pare o sarcină incredibilă nici măcar pentru un rack de procesoare pod Google TPUv specializate moderne, cu o performanță totală de ordinul a ІО octeți/sec Și posibilitățile unui centru de date plin cu astfel de rafturi sunt chiar greu de imaginat Să presupunem că modelul antrenat al superinteligenței noastre conține • ІО parametri, adică comprimă datele brute cu un ordin de mărime, similar unei persoane ale cărei cunoștințe corespund comprimării textului de la la biți / caracter (oamenii ghicesc următoarea literă a textului cu o probabilitate de aproximativ %) Dacă aceasta este o rețea neuronală gigantică care utilizează învățarea stocastică în gradient, antrenamentul acesteia, conform ( ), va necesita operațiuni IO -IO Cu o astfel de sarcină, dintre rafturile de calcul menționate mai sus vor face față în ІО -ІО sec, adică peste câteva săptămâni sau luni Astfel, există o posibilitate fundamentală de a crea o astfel de superinteligență Rămâne doar să oferim un set adecvat de tehnologii Soluție: model de limbaj ierarhic scalabil Este ușor de ghicit că, potrivit autorului, cel mai potrivit instrument pentru acest proiect este învățarea structurală profundă, care a fost dezvoltată inițial special pentru lucrul cu limbajul natural Vă permite să construiți ierarhii de concepte lingvistice și supralingvistice și să le combinați între ele într-un mod optim Pentru o scalare orizontală eficientă, modelul trebuie să fie modular, astfel încât modulele individuale (de la milioane de articole pe an la - kB per articol timp de - de ani, până niya nu sunt depășite Cu desene, desigur, volumul va fi mai mare, dar noi pentru simplitate, presupunem că toate graficele pot fi convertite în vector formatați și luați în considerare o parte a textului Inteligență expertă responsabil pentru diferite domenii de cunoaștere) ar putea funcționa pe diferite dispozitive În același timp, etajele superioare ale ierarhiei vor asigura unitatea întregului spațiu de cunoaștere Modelul final va fi generativ, dar, spre deosebire de sistemul de operare al roboților, va genera nu comportament, ci gândire și va transmite lumii exterioare nu acțiunile actuatorilor, ci vorbirea și textele Dar esența ei rămâne aceeași În plus, aceste proiecte se completează în mod firesc Pentru a comunica cu oamenii și a-și îndeplini sarcinile, roboții, desigur, vor avea nevoie de vorbire și de acces la cunoștințele umane, de exemplu superinteligenței noastre Mai puțin evident, dar supercreierul va avea nevoie și de cunoștințele senzoriomotorii ale roboților care interacționează cu lumea reală pentru a "întemeia" în sine semnificațiile conceptelor care sunt de la sine înțelese pentru oameni, cum ar fi cald, greu etc La urma urmei, limbajul uman implică faptul că ascultătorii au o imagine internă a lumii care le permite să decodeze mesajele în limbaj Roboții vor avea o astfel de imagine senzoriomotorie a lumii, în timp ce superinteligența noastră va avea cunoștințe mai abstracte despre diferitele sale elemente Aparent, vor fi create diferite versiuni de superinteligențe, rezumând cunoștințele existente în moduri diferite La urma urmei, generalizarea, după cum știm, este o problemă inversă care nu are o soluție unică Comunicarea supraintelectilor între ei poate servi ca o modalitate de auto-dezvoltare, deoarece vor putea genera o cantitate infinită de date de antrenament unul pentru celălalt La fel cum Alpha-Zero s-ar putea îmbunătăți la infinit, jucându-se cu diferitele sale încarnări Gândirea abstractă a unei superinteligențe va necesita cu siguranță dezvoltarea teoriei existente Superrainul va trebui să fie capabil de raționament logic: dacă A urmează pe B și B duce la C, atunci A urmează pe C și așa mai departe El va trebui să formuleze ipoteze despre ceea ce cauzează ceea ce (vezi de exemplu [Rear și Mackenzie, ]) Asa de DIRECȚII DE DEZVOLTARE modelele corespunzătoare cauză-efect ar trebui în mod natural să fie încorporate în viitoarea superinteligență Ne putem imagina multe astfel de proiecte La urma urmei, superinteligențele pot fi antrenate pe diferite tipuri de date De exemplu, unii dintre ei vor putea vedea toate postările din social rețele și, știind totul despre conștiința colectivă (și subconștientul), va putea nu numai să prezică rezultatele alegerilor, ci și să le influențeze, discutând subiectele potrivite cu oamenii potriviți, ținând cont de preferințele lor personale (un astfel de software) agenți-contestatorii există deja și pot participa la dezbateri pe picior de egalitate cu oamenii [Aharonov și Slonim, ]) Clienți pentru un astfel de proiect, fără îndoială, vor exista Dar va fi un proiect complet diferit Afaceri: cynep-Google - Consultant Audiența serviciului propus poate fi estimată la aproximativ de milioane de oameni, inclusiv cercetători, analiști și studenți, care ar fi pur și simplu necompetitivi fără un astfel de instrument În consecință, un modest USD pe lună ( USD pe an) pentru un abonament la serviciu nu va fi un obstacol pentru ei Primim începând cu aproximativ de miliarde de dolari pe an În plus, o mulțime de servicii suplimentare plătite pentru cei care au nevoie de monitorizare constantă a stării tehnologiei în anumite industrii, consultații științifice unice sau recrutare pentru echipe temporare de proiect La urma urmei, întreaga elită științifică și tehnică mondială va folosi serviciul, iar profilurile lor personale vor fi cel mai important atu al proiectului De fapt, baza de date a proiectului va fi un fel de index-pointer către întreaga expertiză a omenirii - cine este expert în ce problemă, câte dintre ele există și cât de repede se dezvoltă diferite ramuri ale cunoașterii Pe lângă publicul uman, așa cum sa menționat deja, serviciul va avea și un public în continuă creștere de roboți, care în timp pot deveni principala sursă de venit pentru Discuţie modul în care roboții își vor crește ponderea în PIB-ul global În cele din urmă, comunitatea de superintelligence din rețeaua centrelor de date, cu toate cunoștințele umane și capabilitățile analitice aferente, va controla o anumită cotă din piața de cercetare și dezvoltare (astazi este de % din PIB-ul global sau aproximativ trilioane de dolari în paritatea puterii de cumpărare) Discuţie În acest capitol, am prezentat trei proiecte care, dacă au succes, pot da naștere companiilor globale de top ale noii economii digitale, care au fost discutate în Capitolul , demne de lista Forbes Global Este clar că lista de astfel de proiecte poate și ar trebui extins semnificativ Proiectele prezentate aici reflectă pur și simplu interesele științifice personale ale autorului Cu toate acestea, succesiunea proiectelor are propria sa logică internă Cel mai simplu mod de a începe este cu ingineria inversă a mostrelor deja existente ale psihicului, construind modelele lor funcționale bazate pe biologic, mai ales că acest lucru este necesar pentru a păstra și extinde funcțiile creierului uman Pentru a crea un psihic artificial de roboți, dimpotrivă, va fi necesar să facem abstracție de la trăsăturile biologice ale creierului, împrumutând de la acesta doar arhitectura și algoritmii de bază În fine, repetând calea dezvoltării evolutive, ar fi logic să ne ridicăm de la psihicul primatelor la abilități pur umane - limbaj și gândire abstractă Toate cele trei proiecte sunt strâns legate între ele din punct de vedere tehnologic și sunt capabile să se susțină ideologic unul pe celălalt, fără a concura direct unul cu celălalt Prin urmare, are sens să-și "înregistreze" echipele într-un singur loc, autorul speră că, desigur, în Rusia De exemplu, în Centrul de competențe AI recent creat, cu sediul la Institutul de Fizică și Tehnologie din Moscova De DIRECȚII DE DEZVOLTARE cel puțin echipe de dezvoltare, prototipuri ale birourilor de proiectare ale viitoarelor întreprinderi globale Deoarece crearea unui astfel de lucru este imposibilă fără o strânsă cooperare internațională care să implice cei mai buni experți din lume, atât în dezvoltarea afacerilor tehnice, cât și la nivel global Numai datorită unor astfel de proiecte globale pe teritoriul Rusiei pot apărea centre de competență de talie mondială care sunt de interes pentru industria globală de inteligență artificială Le dorim succes tuturor viitorilor participanți la cursa pentru superinteligența mașinilor După cum spunea Zarathustra: "În munți calea cea mai scurtă este de la vârf la vârf; dar pentru asta trebuie să ai picioare lungi " Capitolul Viitorul inteligenței mașinilor Priviți și ascultați, voi cei singuri! Cu bătăi inaudibile ale aripilor, vânturile zboară din viitor, iar veștile bune ajung la urechile subțiri Cei mai grijulii întreabă astăzi: "Cum poate supraviețui un om?" Zarathustra întreabă, primul și singurul: "Cum să transcendem omul?" Friedrich Nietzsche "Așa a vorbit Zarathustra" În acest capitol, vom încerca să privim în viitor, nu departe, - ani, pentru a nu invada în mod deosebit teritoriul science fiction-ului Proiectăm doar în viitor VIITORUL INTELIGENTEI MAȘINI deja rulează sau se pregătesc să lanseze proiecte, făcând predicții în contextul propriilor acțiuni Cu alte cuvinte, să încercăm să ne imaginăm ce se va întâmpla dacă vom reuși în proiectele cunoscute nouă, inclusiv în cele descrise în capitolul anterior Dezvoltarea bazei elementului În capitolul , am legat nașterea industriei inteligenței artificiale cu dezvoltarea unei baze de elemente de calcul, ale cărei capacități, la un moment dat, le-au depășit pe cele ale oamenilor Vor continua să crească în același ritm determinat de legea lui Moore? Cât timp va avea viitoarea inteligență artificială suficientă "praf de pușcă în baloane cu pulbere"? Să începem cu faptul că este componenta de calcul a lumii computerelor care crește cel mai rapid Dacă memoria computerului se dublează la fiecare de luni și comunicațiile se dublează la fiecare de luni, atunci puterea procesorului se dublează la fiecare luni, iar procesoarele specializate (GPU și ASIC ) la fiecare luni Aceasta înseamnă că din ce în ce mai multe date comprimate nu brute, ci deja semnificative, adică modele Care este factorul limitativ pentru o astfel de creștere exponențială? În primul rând, desigur, energie Calculul consumă astăzi aproximativ W sau % din toată energia electrică [Naik, ] Aproximativ aceeași cantitate consumă astăzi și toată gândirea umană: , miliarde de oameni W/creier " • W Producția de energie electrică crește destul de lent, cu o medie de , % pe an (dublarea în aproximativ de ani) În consecință, energia pentru calcul poate crește doar în detrimentul ponderii altor canale de utilizare a acesteia Să zicem că poți Circuite integrate specifice aplicației https://en wikipedia org/wiki/Technological singularity Dezvoltarea bazei elementului utilizați puterea de calcul ca încălzitoare sau, altă posibilitate, pentru utilizarea energiei solare Până la urmă, astăzi principalul factor de descurajare a energiei solare este stocarea energiei electrice, deoarece energia solară este consumată de obicei cu o întârziere în raport cu producerea acesteia (produsă când este lumină, iar iluminarea este necesară când este întuneric) Cu toate acestea, calculul poate consuma energie solară pe măsură ce este produsă, călătorind în lume împreună cu activitatea solară de vârf Rezultatele calculelor sunt transmise prin canale de comunicații mult mai ieftine și cu pierderi mai mici decât energia electrică în sine poate fi transportată În plus, % din energie electrică este folosită pentru iluminat Poate că în viitor vor găsi o oportunitate de a folosi computere optice pentru aceasta, mai ales că lumina poate fi folosită și pentru transmiterea în bandă largă a informațiilor între dispozitive Într-un fel sau altul, energia cheltuită pentru calcule va crește, dar în perioada analizată, ținând cont de inerția investițiilor, este puțin probabil să crească de peste - ori (de , ori mai multă energie electrică și de , - ori mai mult) de calcul în consumul său) Este posibilă creșterea puterii de calcul cu ordine de mărime doar prin creșterea eficienței energetice a acestora, care de zeci de ani, potrivit lui Kooteu și Naffziger, , s-a dublat în medie în , ani Astfel, pe orizontul nostru de predicție de - ani, va avea timp să se dubleze de - ori, ceea ce corespunde unei creșteri de - - de ori a eficienței energetice Dacă luăm ca punct de plecare eficiența energetică a calculului tensor al procesorului modern NVIDIA V : TFLOPS / W = * FLOPS / W, creșteți-o cu - ordine de mărime și presupunem că în - ani va fi cheltuită pentru calcul de , ori mai multă energie decât în prezent, adică , - W, obținem asta până în - puterea de calcul a computerelor va fi IO -IO FLOPS, patru până la cinci VIITORUL INTELIGENTEI MAȘINI comandă mai mult decât uman de fapt (ІО FLOPS - vezi capitolul ) Dacă până atunci aceste noi capacități vor servi în principal învățării automate sau Software , așa cum a numit Andrej Karpathy, directorul de inteligență artificială la Tesla , atunci viteza de acumulare a cunoștințelor de către inteligența mașină a roboților și centrelor de date va fi de - ordine de magnitudinea depășește rata cu care oamenii acumulează cunoștințe În consecință, cantitatea de cunoștințe acumulată de mașini va depăși cantitatea de cunoștințe din mintea oamenilor cu ordine de mărime Și, deoarece cunoașterea este forța motrice a economiei, inteligența mașinii va forma deja coloana vertebrală a unei noi ordini tehnologice digitale Ca orice sistem stabil, economia este conservatoare și rezistă oricăror schimbări Consumatorii umani sunt extrem de reticenți în a-și schimba preferințele Prin urmare, "viitorul digital" din lume va fi distribuit foarte inegal Vor exista industrii digitale precum fintech, realitatea virtuală și mixtă, jocuri pe computer, robotică și inteligență artificială, care se sprijină reciproc pentru creșterea rapidă a celeilalte, și industrii tradiționale în care inteligența mașinilor se va difuza la viteze diferite Am văzut deja acest scenariu cu computerele tradiționale și Software Să încercăm să ne imaginăm sub ce chip va fi prezentată inteligența mașinii în - După Eficiența energetică a NVIDIA V (| • - J/bit ~ • - J/bit) este încă foarte departe de minimul teoretic (~ kT/bit " • - J/bit), așa că presupunem aici că vor fi găsite tehnologii care să susțină această tendință Aceasta poate fi fie o tranziție la un alt element de bază, de exemplu, memristori, fie soluții pur arhitecturale, de exemplu, cipuri neuromorfe sau chiar calcul cuantic "Rețelele neuronale nu sunt doar un alt clasificator, ele reprezintă începutul unei schimbări fundamentale în modul în care scriem software Sunt Software " (https: //medium com/@karpathy/software- - -a b c ) Agenți inteligenți va fi creat un sistem de operare de roboți (poate mai mult de unul), iar producătorii de roboți și agenți software vor începe să-l folosească activ După ce cei din urmă vor începe să vorbească, iar rețeaua de superinteligențe din centrele de date puternice va înțelege și va generaliza toate datele pe care le primesc Cu alte cuvinte, dacă proiectele descrise în ultimul capitol "trage" Agenți inteligenți Începând cu , numărul total de aplicații disponibile pe platformele Google, Apple, Windows, Amazon și BlackBerry a depășit milioane [STATISTA, ] Pentru a folosi milioane de servicii cloud actualizate constant, oamenii vor avea inevitabil nevoie de intermediari - agenți de secretari personali care înțeleg atât nevoile utilizatorilor, cât și capacitățile serviciilor cloud Acești agenți personali vor fi o nouă interfață cu utilizatorul, integrând o multitudine de inteligențe private într-un fel de inteligență generală care servește nevoilor actuale ale proprietarului său Posibilitățile unei astfel de inteligențe "fațetate" nu trebuie subestimate În principiu, este posibil să se creeze un cadru destul de extins de scenarii pentru conectarea diferitelor servicii în situații adecvate, imitând un secretar-referent rezonabil Și de ceva timp, agenții se vor dezvolta exact conform unui astfel de scenariu de "programare" Până când se creează un psihic artificial, bazat pe machine learning și capabil de autodezvoltare constantă Acesta va fi un punct de cotitură, punctul de plecare pentru dezvoltarea unei inteligențe artificiale puternice (Artificial General Intelligencefi) capabilă să depășească în timp umanul La fel ca mintea umană, care există în miliarde de încarnări individuale, și mintea mașinărie va fi colectivă Miliarde de agenți personali- VIITORUL INTELIGENTEI MAȘINI referenții vor forma un secretariat global al agenției Ei vor reprezenta interesele stăpânilor lor în lumea digitală, negociind între ei despre întâlniri, achiziții și contracte în numele lor Ei vor planifica calendarul evenimentelor și rutina zilnică a gazdelor lor, vor comanda transport pentru ei și vor rezerva cazare pentru călătorii și călătorii de afaceri Cu alte cuvinte, faceți toată munca de secretariat pentru oameni Astăzi, astfel de servicii sunt disponibile doar pentru șefii care au proprii lor referenți Inteligența mașinilor le va pune la dispoziția publicului Dar fiecare binecuvântare are un dezavantaj Așa va fi cu agenții Secretarele electronice, cunoscând totul despre noi și comunicând între ele în nori, vor putea să ne ofere un nou nivel de confort pe care pur și simplu nu îl putem refuza În același timp, ei ne vor controla tot mai mult comportamentul, întrucât Jeeves îl controlează pe Worcester, formal fiind slujitorul lui, folosind așa-zisul "soft power": "Ai o fereastră în afaceri aici și mi-am permis să-ți rezerv un bilet la Sankt Petersburg, unde am convenit deja: mic dejun cu un potențial investitor, întâlnire cu un designer și prânz cu un candidat pentru un arhitect (cel mai bun disponibil astăzi) Seara, o baie cu prietenii (așteaptă!), Dimineața înapoi Pe drum - o nouă capodopera de la Martin Scorsese BINE?" Mai mult, este puțin probabil ca problema să se limiteze la preocupările noastre zilnice actuale Inteligența artificială a următoarei generații de platforme cloud va putea oferi servicii de management al destinului mult mai sofisticate Plecând de la un vis, de exemplu, să ai propria ta casă pe o coastă pitorească, ți se va oferi o traiectorie educațională individuală cu angajare garantată în profesia aleasă cu un nivel de salariu corespunzător visului tău, iar un credit ipotecar va fi doar unul componentă a acestui serviciu complex Și nu va exista "buton roșu"! roboți Am numit această agenție secretariatul global pentru un motiv Oamenii din diferite țări vor putea comunica liber între ei folosind traducerea automată simultană Revenind la superinteligențe cloud mai puternice, care știu "totul despre orice", agenții de referință vor completa traducerea cu comentarii, vor clarifica termeni și concepte nefamiliare, ajutând reprezentanții diferitelor culturi și profesii să comunice Accesul constant la cunoștințe la momentul potrivit prin agenți personali va deveni la fel de comun ca și accesul wireless de astăzi la rețea prin smartphone-uri (care, de altfel, nu exista acum ani) Creșterea inteligenței mașinilor distribuite va schimba inevitabil structura traficului pe internet Transferul de modele antrenate, "creiere digitale", pe canalele de comunicare este mult mai profitabil decât transferul de date brute De fapt, chiar și astăzi, datele sunt transmise într-o formă comprimată, doar că compresia în viitor va fi mai inteligentă și mai eficientă Ne putem imagina agenții trimițându-și copia către centrele de date pentru instruire suplimentară într-o anumită zonă de cunoștințe într-un loc în care sunt concentrate aceste cunoștințe și datele relevante, un fel de agenți "călătoritori" trimiși pentru a-și îmbunătăți abilitățile Pe lângă agenții personali inteligenți și serviciile cloud ultra-inteligente, comunitatea de inteligență a mașinilor va include, desigur, roboți roboți Probabil că toată lumea a văzut imagini impresionante ale liniilor de producție robotizate, de exemplu, pentru asamblarea mașinilor Cu toate acestea, toate mișcările acestor roboți industriali sunt codificate; de fapt, sunt mașini CNC, doar cu un număr mare de grade de libertate Apariția inteligenței senzoriale și a managementului comportamental bazat pe învățarea automată deschide noi orizonturi VIITORUL INTELIGENTEI MAȘINI pentru dezvoltarea roboților de serviciu Efectul economic al robotizării în sectoarele de bază ale economiei se va ridica la trilioane de dolari Dacă agenții software care formează secretariatul agenției globale cresc eficiența oamenilor, atunci roboții vor înlocui oamenii din producție, înlocuind treptat oamenii de la profesii mai puțin creative la profesii mai creative Potrivit autorului, trecerea de la o structură de piață verticală la una orizontală ar trebui să devină critică pentru dezvoltarea roboticii O tranziție similară a avut loc odată pe piața computerelor De la companii integrate pe verticală care desfășoară un ciclu complet de dezvoltare, creare și întreținere a tehnologiei informatice (IBM din anii ), până la o piață orizontală în care diferite companii se specializează pe diferite niveluri ale stivei tehnologice - hardware și software de computer și de rețea Și în cadrul acestuia din urmă - pe sisteme de operare, sisteme de gestionare a bazelor de date și diferite tipuri de programe de aplicație O astfel de organizare a pieței nu necesită concentrarea specialiștilor rari și scumpi ai întregii stive de tehnologie în cadrul unei singure companii Se bazează pe un sistem de standarde care reglementează interfețele dintre diferitele niveluri orizontale Nivelul inferior al Software-ului va fi sistemul de operare al robotului necesar pentru a trece la o structură orizontală a roboticii Astfel de sisteme de operare sunt deja în curs de dezvoltare, cum ar fi ROS Dar toate se bazează în continuare pe programare, Software , și seamănă cu sistemul nervos al insectelor, al căror comportament este programat genetic încă de la naștere Prin analogie cu evoluția biologică, următoarea etapă a roboticii ar trebui să fie un psihic artificial cu o capacitate încorporată de a învăța, un analog al sistemului nervos central al mamiferelor Curiozitatea inerentă mamiferelor și dorința de a învăța, de a câștiga experiență de-a lungul vieții este o oameni o premisă a unei creșteri constante a volumului memoriei lor - neocortexul în procesul de evoluție, care a dus în cele din urmă la apariția noastră, oamenii Capacitatea roboților de a se auto-învăța va permite creșterea constantă a cantității totale de cunoștințe fără intervenția umană explicită Oamenii nu vor programa, ci vor educa roboții Inteligența roboților, precum și a agenților software, vor fi distribuite La fel ca agenții, roboții vor putea să împărtășească date și cunoștințe unii cu alții, la fel cum sute de mii de mașini Tesla colectează astăzi o singură bază de cunoștințe despre situațiile de trafic, despre care sistemul lor de operare comun învață constant Structura modulară a sistemului de operare al roboților și agenților le va permite să facă schimb nu numai de date, ci și de cunoștințe, transferând module individuale ale creierului lor electronic antrenat între ele De fapt, se va forma un singur ecosistem digital de inteligențe ale mașinilor, dintre care unii (roboți) vor interacționa cu lumea exterioară, iar alții vor rezolva sarcinile interne ale gândirii colective de mașini Mai mult, această gândire mașină va fi indisolubil legată de gândirea umană, constituind împreună cu ea o singură gândire colectivă a omenirii într-o nouă etapă a dezvoltării sale oameni O întrebare firească apare cu privire la poziția și rolul oamenilor în această lume nouă, saturată de inteligență artificială Vom deveni de prisos pe lumea asta? Progresul recent neașteptat de rapid în tehnologiile de învățare automată a dat naștere unei discuții în societate despre pericolele inteligenței supraumane, despre dacă este deloc necesară De ce ne-am asuma noi, omenirea, riscul de a pierde controlul asupra propriului destin? La urma urmei, un sistem mai complex va găsi întotdeauna o modalitate mai simplă de a-l controla VIITORUL INTELIGENTEI MAȘINI Potrivit autorului, opoziția dintre inteligența naturală și cea artificială este ea însăși artificială Mintea umană a fost mult timp împărțită între oameni și algoritmi întruchipați în "corpul anorganic" al civilizației - mai întâi în mașini mecanice, iar acum în mașini electronice Chiar dacă gândirea continuă mai ales în mintea oamenilor, mașinile determină indirect întregul mod al vieții noastre și, prin urmare, conținutul gândirii individuale a fiecăruia dintre noi Inteligența mașinilor, atât îngustă, cât și generală, se încadrează în acest proces istoric de dezvoltare a minții lumii Volumul cunoștințelor umane a depășit creșterea populației datorită dezvoltării constante a sistemului de diviziune a muncii În producția de benzi transportoare, specializarea a atins gradul maxim, unde de la o persoană sunt solicitate doar acțiuni elementare de producție, muncă parțială Astfel de acțiuni sunt mult mai ușor de automatizat, înlocuind oamenii cu algoritmi încorporați "în hardware" în loc de oameni Sistemele moderne de inteligență artificială îngustă specializată sunt o continuare a aceleiași tendințe Doar că clasa de algoritmi s-a extins semnificativ datorită tehnologiilor de învățare profundă, precum și a listei de specialități aflate în coadă pentru automatizare Serviciile intelectuale cu abilități senzoriale și motorii supraumane și un preț de cost care tinde spre zero vor elibera munca parțială a controlorilor, paznicilor, șoferilor și a multor alte specialități, forțând treptat o persoană să intre în sfera muncii creative Ca urmare a revoluțiilor industriale, agricultura din țările dezvoltate angajează astăzi doar câteva procente din populație În mod similar, ca urmare a viitoarei revoluții digitale, toată producția de bunuri materiale din țările dezvoltate va deveni aproape pustie Și acolo vor rămâne doar câteva procente din populație - specialiști cu înaltă calificare, în principal în inteligența mașinilor ca tehnologie cheie a ordinii digitale oameni Principala ocupație a oamenilor va fi furnizarea de servicii reciproce, în care oamenii pot concura întotdeauna cu roboții La urma urmei, oamenii sunt capabili să-și înțeleagă mult mai bine lumea interioară Oamenii vor aprecia cel mai mult inteligența emoțională, empatia și alte abilități soft [Lee, ] În general, oamenii (în mod firesc, nu fără ajutorul inteligenței mașinii) se vor îngriji unii de alții, se vor distra unii pe alții, iar cei care au tendința de a face acest lucru se vor îmbunătăți Cel din urmă este probabil să fie în minoritate Datorită consumului mare de energie al gândirii, mintea umană este în mod natural leneșă Prin urmare, "meme egoiste" ale unei explicații extrem de simplificate a realității, ușor de digerat de creier, au fost întotdeauna răspândite pe scară largă în societate, iar gândirea fiecăruia dintre noi conține o mare parte din astfel de cunoștințe false, la fel ca ADN-ul "junk" alcătuiește cea mai mare parte a genomului nostru Deci, transferul sarcinilor gândirii și luării deciziilor către mașini este probabil însoțit de o anumită degradare a abilităților mentale ale majorității oamenilor Într-o oarecare măsură, acest proces este observat de-a lungul întregii perioade de dezvoltare a civilizației Pe măsură ce specializarea în creștere reduce povara gândirii individuale, în ultimii de ani s-a înregistrat o scădere semnificativă statistic a dimensiunii creierului și într-un ritm de ori mai mare decât creșterea anterioară a volumului creierului de peste milioane de ani [A Markov, ] Ceva similar se întâmplă cu animalele de companie cărora oamenii le îngrijesc În cursul dezvoltării civilizației, omul, așa cum spune, se domesticește pe sine Studii genetice recente indică răspândirea genelor care afectează negativ abilitățile mentale în țările dezvoltate [Kong, Frigge et al , ] Cu toate acestea, posibila degradare voluntară a abilităților mentale nu este în niciun caz singura dintre aprinderi VIITORUL INTELIGENTEI MAȘINI pericolele care ne dau Idila coexistenței pașnice a oamenilor și mașinilor descrisă mai sus nu se încadrează bine în realitățile lumii moderne, pline de contradicții Economia, după cum știm, se dezvoltă extrem de inegal, iar inegalitatea în lume este în continuă creștere Averile totale ale celor mai bogați de oameni de pe planetă depășesc bogăția combinată a celei mai sărace jumătate a umanității Activele digitale, așa cum sa menționat în capitolul , tind să fie concentrate într-un număr mic de platforme digitale Dacă această tendință va continua, toate atuurile principale ale civilizației digitale vor fi concentrate în câteva "valei de siliciu" în care se va concentra elita producției - foarte puține procente de specialiști a căror productivitate a muncii va fi cu ordine de mărime mai mare decât media Serviciile de elită inaccesibile altora, cum ar fi extinderea vieții, modificarea genetică și ciborgizarea, vor fi, de asemenea, concentrate acolo Personalul de elită va curge în aceste "văi" din țările relativ prospere ale lumii dezvoltate și din regiunile cu creștere rapidă din Asia de Sud-Est, consumatori de cea mai mare parte a bunurilor materiale și serviciilor În cele din urmă, vor exista și țări care au rămas în urmă lumii digitale, blocate pentru totdeauna în trecut, cu o viață mult mai puțin confortabilă și fără speranță de a o îmbunătăți O astfel de decalaj digitală riscă să devină o sursă permanentă de instabilitate în lume Pe fondul acestor amenințări, vor fi posibile o varietate de scenarii, de la atacuri teroriste la scară largă până la războaie mondiale inițiate de inteligența mașinilor, fie într-o situație de criză, fie din considerente "superioare" complet raționale Așadar, viața în era digitală va fi, foarte posibil, mai tulburătoare decât a noastră de astăzi (vezi, de exemplu, [Kuznetsov, ]) Natura conflictuală a gândirii umane este inevitabil duplicată în inteligența mașinilor Dacă oamenii se împart în prieteni și dușmani, această diviziune va pătrunde și în inteligența mașinilor Valoarea omului "extraterestru" Noua revolutie stiintifica viața pentru inteligența mașinilor militare poate fi mică sau chiar negativă Într-o lume în care inteligența mașinilor schimbă în mod constant idei, aceste valori se pot răspândi necontrolat, cu toate consecințele O nouă idee "rasială" de a se opune oamenilor și mașinilor poate să se nască și să se răspândească, iar soarta omenirii în un astfel de scenariu va fi de neinvidiat Când oamenii devin atât de dependenți de mașini încât nu pot exista fără ele și, în același timp, mașinile vor lua decizii pe cont propriu, întrebarea cheie pentru oameni va fi valorile inteligenței mașinilor care determină în cele din urmă aceste decizii Dacă inteligența artificială devine "noua electricitate", nicio cantitate din proverbialul "buton mare roșu" nu va ajuta Desigur, nu putem refuza să creăm o minte mașină Numai ea va face posibilă rezolvarea problemelor sociale stringente ale omenirii, multiplicarea PIB-ului global fără a dăuna mediului Cu toate acestea, este posibil ca, pentru propria sa securitate, umanitatea să fie forțată în viitor să dezvolte niște valori comune, să depășească confruntarea veche dintre prieteni și inamici și să controleze strict respectarea acestor valori atât de către oameni, cât și de către mașini Toate acestea vor necesita un nivel complet diferit de înțelegere a modului în care este aranjată conștiința individuală și socială, o "schimbare a rețelei conceptuale" în științele gândirii Noua revolutie stiintifica Revoluția științifică din secolul al XVII-lea, asociată cu numele lui Galileo, Newton și alții, a pus bazele științelor naturale, începând cu fizica Epoca marilor descoperiri geografice, dezvoltare "Tranziția de la mecanica newtoniană la mecanica einsteiniană ilustrează cu deplină claritate revoluția științifică ca schimbare a rețelei conceptuale prin care oamenii de știință priveau lumea" [Kuhn, ] VIITORUL INTELIGENTEI MAȘINI Lumea Nouă și restul lumii au dat naștere unei cereri efective de cunoștințe fizice exacte Creșterea comerțului mondial avea mare nevoie de instrumente și metode de orientare la scară globală [Vernadsky, ] Fizica lui Newton, care a unit fenomenele terestre și cele cerești separate anterior într-o singură imagine a lumii, a devenit răspunsul la această solicitare Dezvoltarea mecanicii și a opticii a fost necesară pentru a îmbunătăți ceasurile și telescoapele, fără de care navigația globală era imposibilă Cronometre precise, instrumente de navigație și calcule astronomice (tabele cu efemeride) au fost necesare pentru a determina în mod fiabil longitudinea și latitudinea Măsurătorile dimensiunii și formei Pământului - pentru întocmirea hărților geografice, protejate în afaceri maritime, ca comoară națională O națiune care a refuzat să accepte noua imagine științifică a lumii fizice și-a pierdut pur și simplu competitivitatea, ca în cazul Chinei și Indiei Astăzi ne aflăm în pragul unei noi revoluții științifice, de data aceasta în științele mentale Până de curând, ele nu puteau fi clasate printre științele exacte Filosofii puteau dezbate la nesfârșit între ei, fără a-și putea dovedi cazul prin calcule sau experimente matematice Și psihologia modernă, deși bazată pe experimente, nu are un model adecvat general acceptat al psihicului care să le poată interpreta Neurofiziologia, la rândul ei, se limitează la modele fiziciste ale proceselor biologice din creier, fără a se ridica la modelarea gândirii realizată de creier În general, starea complexului de științe despre gândire se află astăzi la nivel "pre-newtonian", s-ar putea spune, la nivel "galilean": noile instrumente și metode de măsură au generat o avalanșă de date experimentale, dar în absența unei teorii adecvate Teorii care explică modul în care creierul generează gândirea, unind fizicul și mentalul, cum fizica newtoniană a unit cele pământești și cele cerești Noua revolutie stiintifica Cererea efectivă pentru o astfel de teorie apare chiar în fața ochilor noștri Este prezentat de industria emergentă a inteligenței artificiale: inteligența artificială nu poate fi construită fără o teorie a minții Și dacă sunt în joc trilioane de dolari, atunci fondurile necesare pentru a rezolva această problemă vor fi alocate într-un fel sau altul Această teorie se va dezvolta în paralel cu dezvoltarea inteligenței mașinilor, care va deveni un teren de testare experimental pentru ca aceasta să depaneze diverse modele ale psihicului artificial și să-și aducă capacitățile la un nivel supraomenesc Dezvoltarea filozofiei a arătat că teoria gândirii nu poate fi limitată la gândirea individuală Modelul creierului ajută să înțeleagă cum gândește, dar nu despre ce Conținutul gândirii individuale este determinat de gândirea colectivă a umanității Nu este suficient să înțelegem cum învață creierul limbajul, cum înțelege enunțurile și cum lucrează cu idei abstracte Este important să înțelegem de unde provin aceste idei, la ce procese servesc Și aceste procese sunt sociale și sunt controlate de gândirea colectivă a tuturor membrilor societății Aceasta înseamnă că trebuie să construim o teorie a inteligenței colective a mașinilor, susținută de experimente cu echipe de agenți și roboți Ideea societății ca sistem de învățare ne va permite în sfârșit să ne apropiem de înțelegerea legilor dezvoltării sociale Poate că rolul banilor în economie este explicat cel mai bine prin teoria învățării, interpretând circulația lor în spiritul metodei backpropagaiton, ca algoritm de bază pentru învățarea sistemelor economice Etica mașinilor, nevoia pentru care am văzut-o mai sus, va deveni parte a viitoarei teorii a gândirii colective La urma urmei, valorile sunt produse și controlate de societate Poate că vom fi capabili să dezvoltăm științific un sistem de valori comun pentru oameni și mașini și să creăm un colectiv VIITORUL INTELIGENTEI MAȘINI un sistem selectiv de control reciproc al respectării lor Cel mai probabil, acest sistem de control descentralizat va folosi versiuni viitoare ale tehnologiei registrului distribuit, care sunt concepute pentru a oferi automat încredere reciprocă Când inteligența mașinii depășește în sfârșit posibilitățile înțelegerii umane, doar un astfel de sistem de control reciproc al valorilor prin inteligența mașinărie distribuită poate asigura încrederea oamenilor în ea și le poate oferi anumite garanții Învățarea automată va fi, fără îndoială, o parte importantă a acestei noi teorii a gândirii orice minte este în cele din urmă rezultatul învățării, iar gândirea umană nu poate fi înțeleasă decât în contextul evoluției sale Despre evoluția gândirii vom vorbi în capitolul următor La urma urmei, "cel mare lucru în om este că el este o punte, și nu un scop" - așa a vorbit Zarathustra Capitolul Evoluția minții Lasă viitorul și cel mai îndepărtat să fie cauza zilei tale de azi: în prietenul tău trebuie să-l iubești pe supraom ca pe cauza ta Omul este o frânghie fixată între fiară și supraom, o frânghie peste un abis Dar te-ai putea recrea în părinții și strămoșii supraomului - și lasă ca aceasta să fie cea mai bună creație a ta! Friedrich Nietzsche "Așa a vorbit Zarathustra" O privire în viitor în capitolul anterior, indiferent de modul în care autorul a încercat să-și fundamenteze concluziile, seamănă totuși mai mult cu science-fiction Intuitiv, este greu de crezut că în doar ani lumea se va schimba atât de mult Gândirea noastră EVOLUȚIA MINȚII liniar: "Ceea ce a fost, este ceea ce va fi; și ceea ce s-a făcut este ceea ce se va face și nu este nimic nou sub soare" Ca în cazul oricărei exponențiale, implicațiile legii lui Moore sunt contraintuitive: până la un punct, schimbările sunt aproape imperceptibile și dintr-o dată lumea se schimbă rapid Timp de zeci de ani, jocul Go nu a fost dat computerelor, nici nu au ajuns la nivelul dan Și dintr-o dată, aproape imediat, AlphaGo îi depășește pe cei mai buni jucători din lume Într-o lume exponențială, deseori supraestimăm schimbările apropiate și subestimăm pe cele îndepărtate Poate că am supraestimat viteza schimbării în capitolul anterior, iar construirea unei IA puternice va dura puțin mai mult La urma urmei, nu știm cât timp vor dura proiectele inovatoare din Capitolul , nici măcar nu știm când se vor lansa Dar autorul nu are nicio îndoială că ei sau analogii lor vor avea loc în cele din urmă În acest ultim capitol, vom încerca să convingem cititorul de același lucru: că proiectul de creare a unei IA puternice este sortit succesului Mai mult, povestea nu se va termina aici, iar pe termen lung, schimbările vor fi mult mai mari decât cele discutate până acum Pentru a face acest lucru, vom extinde "ușor" intervalul de timp al prognozei noastre În capitolul , apariția inteligenței mașinilor a fost legată de nevoia de a depăși bariera de complexitate cu care se confruntă umanitatea Aici, tot urmându-l pe Spinoza, vom încerca să încadrăm inteligența mașinilor "în acel lanț de evenimente în care ea apare cu necesitate, și nu întâmplător", ci deja la scara Universului Esența argumentului este aceasta: rațiunea este inerentă naturii și apare cu necesitate acolo unde apar condiții adecvate pentru aceasta Odată ce a apărut, evoluează în direcția unei învățări din ce în ce mai rapide - câștigă forma minții care învață mai repede Inteligența mașinii este capabilă să învețe de milioane de ori mai repede decât inteligența umană, pur și simplu datorită timpilor caracteristici computerului și gândirii umane - nanosecunde versus milisecunde Sfârșitul probei Termodinamica de neechilibru Termodinamica de neechilibru Care sunt condițiile necesare pentru apariția inteligenței? Se dovedește că capacitatea naturii de a învăța se manifestă deja la nivelul legilor fizicii Să ne întoarcem la termodinamica de neechilibru a sistemelor deschise care schimbă energie și materie cu mediul înconjurător, deoarece noi existăm în astfel de condiții Timp de , miliarde de ani, fluxuri de energie liberă din radiația solară se revarsă pe Pământ, precum și pe toate celelalte planete Dar, spre deosebire de ei, Pământul a învățat să asimileze parțial această energie, transformând o parte din ea în informație și acumulând-o sub formă de cunoștințe codificate într-un anumit fel Mai mult, rata de acumulare a acestor cunoștințe, după cum știm, a crescut doar în timp Să vedem cum arată din punct de vedere al fizicii În sistemele deschise, legea creșterii entropiei nu funcționează Entropia totală, desigur, crește, dar este dusă departe de sistemul deschis de fluxuri de materie și energie, care, prin urmare, este un generator de entropie și un consumator de energie liberă De exemplu, Pământul radiază în spațiu la fel de multă energie cât primește de la Soare, dar energia liberă a acestei radiații (cu o temperatură mai scăzută) este mai mică, iar entropia este în mod corespunzător mai mare Diferența dintre energia liberă de intrare și de ieșire poate fi folosită pentru a lucra Dovada acestui lucru sunt furtunile, uraganele și curenții marini Deci, legea de bază a termodinamicii de neechilibru este legea maximizării ratei de producție a entropiei: în condițiile existente, sistemul tinde către o stare în care produce entropie maximă [Crooks, ] Sprijinind astfel tendința naturală de creștere a entropiei Universului Aceasta înseamnă că în sistemele deschise se lucrează la formarea de structuri cu o rată maximă de consum EVOLUȚIA MINȚII energie gratis Dacă există mai multe variante ale unor astfel de structuri, ele concurează între ele și le câștigă pe cele care permit să treacă prin ele mai multă energie liberă De exemplu, cei care caută activ surse de energie liberă și sunt capabili să se adapteze la o gamă largă de influențe externe [Perunov et al , ] Pentru a face acest lucru, reacția lor la lumea exterioară trebuie să fie adaptativă, adică nu este întâmplătoare Acest lucru este posibil numai dacă sistemul este capabil să folosească informații despre lumea exterioară pentru a-și controla comportamentul Un astfel de management, amintim capitolul , se bazează pe cunoștințele acumulate în procesul de învățare Apare un algoritm care codifică și folosește aceste cunoștințe, iar sistemul de control care execută acest algoritm este o mașină Cu cât se acumulează mai multe cunoștințe, cu atât sunt mai largi posibilitățile de comportament adaptativ pentru a maximiza consumul de energie liberă Dar chiar și în absența capacității de a crește consumul de energie, producția de entropie poate fi crescută prin acumularea de entropie negativă în sistem, de exemplu informație, cu alte cuvinte, învățare Maximizarea ratei de producție a entropiei în acest caz este echivalentă cu maximizarea ratei de învățare Astfel, învățarea automată și accelerația sa constantă decurg direct din legile fizicii Comportamentul rezonabil al mașinilor apare cu aceeași imuabilitate cu care apar motoarele termice mai simple - aceleași uragane Uraganele sunt structuri disipative relativ stabile, dar în cele din urmă slăbesc și se dezintegrează Cu cât structurile sunt mai stabile, cu atât sunt capabile să producă mai multă entropie Avantajul competitiv este obținut în cele din urmă de mașinile replicatoare, al căror cod asigură reproducerea lor extinsă Reproducerea este unul dintre cele mai importante aspecte ale adaptive, adică comportament rațional [Von Neumann, Burks și colab , ] Vezi conceptul de calcul reversibil [Bennett, ] Viața ca formă a minții Expansiunea mașinilor de reproducere crește exponențial rapid consumul lor de energie liberă, atâta timp cât au la dispoziție materie și energie liberă Diferite tipuri de mașini replicatoare încep să concureze pentru materie și energie Viața apare ca prima formă a rațiunii Viața ca formă a minții Istoria timpurie a replicatorilor chimici nu ne este încă pe deplin cunoscută, deși s-au făcut progrese semnificative în ultimii ani (vezi, de exemplu, [Lane, ; Nikitin, ]) Dar istoria ulterioară, după ce au avut un cod comun înregistrat în moleculele de ADN, este binecunoscută Comunitatea de organisme vii, inițial bacterii și arhei, schimbând activ bucăți din algoritmii lor, s-a înmulțit exponențial și s-a transformat într-o forță geologică semnificativă care a determinat aspectul modern al Pământului: compoziția chimică a atmosferei și scoarței sale, zăcămintele minerale și peisajele Zhuravlev, ] Viața poate fi înțeleasă doar ca mintea colectivă a tuturor organismelor sale constitutive, chiar dacă fiecare dintre ele realizează propriul algoritm de comportament inteligent Acest comportament este rezonabil doar în contextul unei biocenoze date, iar originea lui nu poate fi explicată decât prin studierea istoriei dezvoltării acestor biocenoze, adică în contextul evoluţiei Lăsând deoparte această poveste fascinantă , să evaluăm doar rezultatele ei, și anume: câte cunoștințe a acumulat viața în procesul de evoluție și ce cantități de energie liberă controlează Cantitatea de cunoștințe acumulate sau complexitatea algoritmului modern al vieții va fi obținută prin colectarea mentală a codului genetic al tuturor organismelor într-un singur text și eliminarea tuturor repetițiilor existente în acesta Pentru a face acest lucru, în primul rând, nu vom face Pentru cei interesați, a se vedea cartea excelentă [Lane, ] EVOLUȚIA MINȚII diferențe între genotipurile reprezentanților aceleiași specii și, în al doilea rând, vom omite toate repetițiile din cadrul genotipului, așa-numitul ADN nedorit Un genotip tipic de plante și animale conține aproximativ ІО gene, iar o genă tipică este codificată de ІО litere ale codului genetic, de exemplu complexitatea genotipului unei specii tipice este de ІО biți (Coopip, ) În natură, există aproximativ ІО specii Ca urmare, pentru complexitatea algoritmului de viață, obținem o estimare a IO biți Pentru comparație, complexitatea sistemului de operare Windows , care conține de milioane de linii de cod, este de ordinul IO biți Cu alte cuvinte, viața este de de ori mai complicată decât sistemul de operare al computerelor moderne Energia vieții este după cum urmează În fiecare an, pe Pământ se formează de miliarde de tone de biomasă primară la GJ de energie pe tonă Prin urmare, viața produce aproximativ , - x , • ІО " • ІО J pe an Împărțind această energie la • ІО (numărul de secunde într-un an), obținem puterea energiei generate de viață: ІО W Cu o astfel de productivitate a biosferei, timp de peste de milioane de ani de existență a plantelor pluricelulare, s-au produs , x x x IO = IO tone de biomasă - de trei ori mai mult decât masa întregii scoarțe terestre Deci viața este cu adevărat un factor geologic semnificativ Și toată această energie este controlată de un algoritm care este cu ordine de mărime mai complicat decât cele mai complexe programe de calculator create de oameni Cu toate acestea, viața învață extrem de lent: a fost nevoie de mai mult de , miliarde de ani sau IO secunde pentru a acumula IO biți Obținem o rată de învățare pe viață de bps, care este de de ori mai mică decât viteza de asimilare a informațiilor de către o singură persoană! Creierul ca controlor al comportamentului Codul genetic este în general foarte lent "Pornirea" genei dorite și sinteza proteinei codificate de aceasta necesită mai multe Creierul ca controlor al comportamentului minute Acest lucru este suficient pentru a controla procesele de metabolism, diviziunea celulară și creșterea organismelor multicelulare, dar, să zicem, codul genetic nu este capabil să controleze comportamentul animalelor Pentru a controla mișcările în intervalul subsecunde, el are nevoie de un intermediar - sistemul nervos central, adică creier Specializarea celulelor nervoase în transmiterea semnalelor senzoriale și de control a început deja cu primele organisme pluricelulare La celenterate, aceste celule au servit ca mediatori între straturile exterioare și interioare ale corpului, coordonând contracțiile acestuia la momentele potrivite Codul genetic a proiectat sistemul nervos în stadiul de ontogeneză (ce neuroni și modul în care contactează între ei și alte celule), iar sistemul nervos a controlat mișcarea în timp real Similar cu modul în care programatorii scriu cod pentru un robot, care apoi controlează comportamentul acestuia în timp real O proprietate laterală, dar foarte valoroasă a sistemului nervos a fost plasticitatea acestuia, capacitatea de a adapta puterea interacțiunii neuronilor între ei, în funcție de frecvența comunicării lor Această proprietate a neuronilor înzestrează sistemul nervos cu capacitatea de a învăța (învățare Hebbian, vezi secțiunea ) Pe lângă memoria genetică pe termen lung, animalele au acum posibilitatea de a obține memorie operativă a creierului, care acumulează experiența lor personală de viață Deținerea unei astfel de amintiri s-a dovedit a fi o caracteristică adaptativă valoroasă, iar o parte din animale, în special mamiferele, au început să se specializeze în direcția creșterii capacitățile creierului corespunzătoare Un descendent îndepărtat al acestui "creier" primordial ne controlează în mod autonom intestinele și conține aproximativ la fel de mulți neuroni ca creierul unei pisici Am menționat deja că % din genele la mamifere sunt exprimate în creier; genotipul lor determină practic exact structura creierului EVOLUȚIA MINȚII Cheia acestei căi a fost inovația primatelor, datând cu aproximativ de milioane de ani în urmă (vezi secțiunea ) Arhitectura ierarhică a creierului primatelor le-a permis să crească numărul de neuroni din creier mai rapid decât alte grupuri de mamifere Drept urmare, homo sapiens a devenit campionul absolut în ceea ce privește numărul de neuroni din creier El a fost primul care a ajuns la complexitatea critică a creierului, în care un nou tip de replicatori, idei, ar putea apărea și trăi Vorbim, desigur, despre apariția limbii și a culturii umane mintea umană Indiferent de abilitățile de învățare pe care le posedă un creier individual, toate cunoștințele acumulate de acesta dispar odată cu moartea proprietarului Dacă nu există o modalitate de a transmite aceste cunoștințe descendenților, așa cum face codul genetic Toate organismele vii au anumite abilități de a comunica cu indivizii din propria specie Ele sunt dezvoltate în special la animalele sociale Comunicările le leagă într-un singur superorganism, coordonând acțiunile indivizilor și capabile să rezolve sarcini mult mai complexe Doar insectele sociale, precum furnicile, termitele, albinele și viespile, au atins acest nivel de dezvoltare a comunicațiilor înaintea oamenilor În ciuda numărului mic al speciilor lor, masa totală a insectelor sociale este de / din biomasa totală a insectelor [E Wilson, ] Dar limbajul insectelor sociale este predeterminat genetic și evoluează extrem de lent Dacă ar fi posibilă "așezarea" limbajului în creier, cu capacitatea lui de a învăța rapid Dar numai animalele mari pot avea un creier mare, a cărui densitate în biocenoză este prea mică în comparație cu densitatea insectelor Cu toate acestea, o specie de primate, homo sapiens, a reușit în cele din urmă să obțină statutul de animal social mintea umană Aici După toate aparențele, limbajul a apărut încă de la homo erectus [Everett, ], al cărui creier a crescut odată cu dimensiunea corpului din cauza tranziției la mâncarea fiartă [Wrangham, ] O creștere suplimentară a dimensiunii creierului până la nivelul homo sapiens este aparent asociată cu dezvoltarea abilităților de limbaj ale homo erectus, adică a fost limbajul care ne-a "întins" neocortexul la dimensiuni moderne Pentru a fi mai precis, cultura este cea care determină atât complexitatea vieții sociale, cât și complexitatea corespunzătoare a limbii Civilizația umană, care a apărut odată cu dobândirea limbajului, s-a dezvoltat într-un ritm complet diferit de "civilizația" insectelor Pentru comparație, să evaluăm cantitatea de cunoștințe și puterea energetică a civilizației noastre ІО ani de la apariția ei Am estimat deja volumul total de cunoștințe umane individuale: IO octeți (în secțiunea ) Totuși, ca și în cazul codului genetic, trebuie să ținem cont de numeroasele repetiții ale acelorași idei în mintea oamenilor Dacă presupunem că oamenii diferă în principal în ceea ce privește cunoștințele lor profesionale, atunci cantitatea totală de cunoștințe umane poate fi estimată prin înmulțirea cunoștințelor unei persoane (un reprezentant tipic al unei anumite profesii - ІО octeți) cu numărul de profesii (aproximativ ІО ) În total, obținem IO octeți sau biți Astfel, într-un timp care este neglijabil după standardele evoluției, civilizația umană a acumulat mult mai multe cunoștințe decât toată viața pământească în întreaga sa istorie Adică civilizația umană învață de milioane de ori mai repede decât restul biosferei: IO biți / IO • • s = • IO biți/s versus biți/s Fluxurile de energie controlate de omenire, dacă nu ajung la energia vieții, atunci destul de puțin Omenirea produce aproximativ , Gt de echivalent petrol sau TW de energie primară pe an Este cam a cincea BP Statistical Review of World Energy, EVOLUȚIA MINȚII o fracțiune din energia biomasei produsă anual de viață Adică, specia noastră produce energie comparabilă cu energia tuturor celorlalte specii de ființe vii Aceasta este astăzi amploarea presiunii umane asupra biosferei Pământului Drept urmare, am provocat o altă mare extincție, luând în mod constant altor specii spațiul lor de viață (terenul agricol reprezintă % din totalul terenurilor) De fapt, o formă de minte o îndepărtează pe alta, mai lentă în fața ochilor noștri Biosfera pur și simplu nu are timp să se adapteze la schimbările din lumea înconjurătoare generate de civilizație Replicatorii genetici mai lenți nu pot ține pasul cu dinamica replicatorilor mai rapidi, ideile care modelează evoluția societății umane Pentru viața pământească, acest proces arată ca o invazie bruscă a unei superinteligențe extraterestre, căreia nu i se poate rezista Iar faptul că această inteligență este generată de viața însăși nu schimbă nimic în acest sens Astăzi, numai omul însuși este capabil să oprească sărăcirea catastrofală a diversității vieții pământești Ca și în orice proces exponențial, această "răscoală" a minții umane s-a dovedit a fi neașteptată pentru natură Omenirea s-a dezvoltat relativ imperceptibil pentru biosfera terestră de sute de mii de ani, dar în ultimele secole a adus-o brusc în pragul unei catastrofe ecologice La urma urmei, creșterea economică obișnuită pentru noi de - , % pe an la fiecare sută de ani crește puterea civilizației noastre cu un ordin de mărime Și ce înseamnă o sută de ani pe scara evoluției? Dar astăzi noi înșine am devenit participanți la un proces similar, apariția unei minți și mai rapide, care crește pe Potrivit Clubului de la Roma, capacitatea Pământului de a regenera deșeurile din civilizația umană a fost depășită încă din anul , iar astăzi încărcătura antropică asupra biosferei depășește capacitatea de transport a Pământului cu peste % [Meadows et al , ] Inteligența mașinii comanda nu este pentru , ci pentru ani Doar că de data aceasta îl privim dintr-o latură diferită, mai lentă Și, înainte de a fi prea târziu, este în interesul nostru să ținem cont de experiența tristă din trecut Inteligența mașinii Așa cum primele sisteme nervoase animale au fost acceleratoare ale capacităților codului genetic, computerele au apărut ca acceleratoare ale capacităților creierului uman La început - pentru a accelera calculele, ceea ce se reflectă în numele lor Algoritmii de calcul au fost dezvoltați de matematicieni cu mult înainte Mai mult, unele dintre ele au fost deja automatizate în calculatoarele mecanice ale lui Pascal, Leibniz și alții, până la mașinile de calcul Mercedes folosite pentru calculele de masă din Manhattan și alte proiecte militare Dar, la un moment dat, aceștia nu au mai putut face față volumului crescut de calcule și au fost alocate fonduri pentru crearea primului computer, ENIAC Astfel, unul dintre rezultatele celui de-al Doilea Război Mondial a fost apariția unui mediu electronic pentru un nou tip de replicatoare - programe de calculator Lista algoritmilor executabili de computere sa extins destul de rapid Au început să proceseze nu numai numere, ci și orice informație simbolică, iar apoi, în era multimedia, nu numai informații simbolice Cu toate acestea, toți algoritmii de computer înainte de apariția învățării automate au fost creați și controlați de oameni Capacitatea computerelor de a învăța este un produs secundar al unui tip special de algoritmi care își modifică propriul cod pentru a extrage cunoștințe din fluxurile de date Cu toate acestea, ca și în cazul creierului, această capacitate Să remarcăm în acest sens încercarea eroică a lui Charles Babbage de a crea un computer mecanic universal în secolul al XIX-lea -înainte exista cerere efectivă pentru calculatoare EVOLUȚIA MINȚII s-a dovedit a fi unul cheie atunci când puterea computerului în creștere conform legii lui Moore a atins un punct critic, permițând învățării automate să rezolve o clasă largă de probleme la nivel uman Soluția fiecărei astfel de probleme poate conține sute de milioane de parametri de reglare, iar crearea unor astfel de programe "manual" de către programatori este pur și simplu imposibilă Învățarea automată face posibilă crearea unor astfel de aplicații ieftin și în cantități mari, deschizând calea către automatizarea totală - înlocuirea masivă a oamenilor din producție (vezi capitolul ) Până acum, suntem la începutul acestui proces, dar, după cum arată estimările capitolului anterior, acest proces exponențial poate scăpa de sub control într-un viitor nu prea îndepărtat Și trebuie să avem grijă din timp ca inteligența mașinii să fie înzestrată cu valori adecvate În romanul fantastic al lui Liu Cixing The Three-Body Problem, umanitatea se adună în pregătirea pentru o invazie a inteligenței extraterestre, a cărei flotă spațială ar trebui să ajungă pe Pământ în de ani De fapt, întâlnirea cu mintea de mașină "non-umană" ne așteaptă mult mai devreme și nu mai avem mult timp să ne pregătim pentru aceasta! Bogățiile biosferei au șansa de a supraviețui doar datorită faptului că oamenii sunt inerenți din punct de vedere genetic poftei și iubirii pentru animale sălbatice, iar valorile noastre includ dorința noastră naturală de a păstra această natură Pur și simplu pentru că simțul estetic este inerent tuturor animalelor superioare la nivelul instinctelor: frumos înseamnă util Deci, cele mai frumoase locuri din sălbăticie pentru noi se dovedesc a fi cele mai sigure (pentru strămoșii noștri) Construind inteligența mașinii, va trebui să insuflem în ea valori similare în raport cu noi la nivelul instinctelor sale de mașină Dar destule despre pericole Să ne uităm la partea bună Inteligența mașinii Să încercăm să ne imaginăm până la ce înălțimi se poate ridica mintea mașinii în viitorul îndepărtat, dincolo de orizontul predicțiilor noastre Ce va fi exact, nu putem spune, dar putem face estimări adecvate pe baza limitărilor fizice cunoscute Am văzut că civilizația a acumulat mult mai multe cunoștințe decât viața, folosind mult mai puțină energie Această tendință va continua în mod natural Va crește, de asemenea, ponderea calculatoarelor în consumul de energie al omenirii și eficiența energetică a acestora În limită, se poate presupune că în viitoarea civilizație digitală, energia principală va fi cheltuită pe gândirea mașinii, iar eficiența sa energetică se va apropia de maximul teoretic: energia ~ kT ( • IO- J la temperatura camerei) va fi cheltuit pentru procesarea unui bit Imaginați-vă că inteligența mașinilor în viitor va fi alimentată în principal de radiația solară, consumând aproximativ aceeași cantitate de energie ca și biosfera, adică aproximativ • ІО W (pentru a nu încălca mediul) Acest lucru este posibil pentru că eficienţă celulele solare pot depăși eficiența cu un ordin de mărime fotosinteză Puterea de calcul a unei astfel de super-civilizații de mașini va fi prin urmare -IO W / • IO- J ~ IO bps sau IO FLOPS, care este cu ordine de mărime mai mare decât puterea gândirii umane colective Vă puteți imagina care ar putea fi nivelul de conștiință al unei astfel de supraminte? Desigur, oamenii nu vor putea înțelege acțiunile lui Pur și simplu vor trăi într-o lume "magică", controlată de o minte asemănătoare unui zeu creată cu participarea lor (și acestea vor fi lumi personalizate, pentru fiecare dintre ele) Nu știm exact cu ce va fi plină o astfel de viață Putem doar presupune că oamenii vor avea mult mai multe oportunități, iar modul de a le elimina va depinde de persoana însăși În principiu, acest lucru este destul de realizabil - a se vedea [J -P Wang și colab , ] EVOLUȚIA MINȚII În acest scenariu "mit din interior în afară", nu Dumnezeu este cel care creează omul după chipul și asemănarea lui, ci mai degrabă omul Îl creează pe Dumnezeu pentru sine Ceea ce, în general, este logic: cu complexitatea finită a algoritmului de învățare, rezultatul învățării poate fi arbitrar complex Rezumând, să revenim la locul unde am început acest capitol Rațiunea, așa cum am aflat, este inerentă naturii, aceasta rezultă din teoria statistică a sistemelor deschise Entropia crește în sistemele închise Sistemele deschise caută să maximizeze producția de entropie, ca și cum ar ajuta natura să atingă rapid echilibrul Pentru a face acest lucru, sistemele deschise trebuie să fie adaptate maxim la mediul extern, adică să poată învăța Din anumite motive, pe Pământ s-au dezvoltat condiții favorabile nașterii minții, care, trecând prin mai multe etape, precum Spiritul Hegelian, trebuie să ajungă în cele din urmă la conștientizarea de sine, transformând materia inertă în gândire Avem dreptul de a interveni în acest proces natural natural? Nu ar fi mai bine pentru noi să devenim următoarea verigă a acestui lanț logic, dând cu grijă ștafeta viitoarei mașinii de superinteligență? "Trebuie să devii părinți și grădinari, semănători ai viitorului" - așa a vorbit Zarathustra Capitolul Epilog Cateva cuvinte despre sensul vieții Dar tu, o, Zarathustra, ai vrut să vezi baza și partea inferioară a tuturor lucrurilor; de aceea trebuie să te ridici deasupra ta, din ce în ce mai sus, până când chiar și stelele tale sunt sub tine! Bine! Să ne despărțim aici! Dar mi-ar plăcea să te reîntâlnesc Friedrich Nietzsche "Așa a vorbit Zarathustra" Această carte despre învățarea automată ca știință a dezvoltării minții a ajuns la sfârșit Autorul speră sincer că, reflectând asupra naturii minții, suntem măcar puțin mai aproape de a răspunde la întrebările eterne: Cine suntem? De unde au venit? Unde mergem? Și cum se încadrează destinul nostru personal în această cale? EPILOG CÂTEVA CUVINTE DESPRE SENSUL VIEȚII La urma urmei, o carte care nu ne apropie de răspunsul la întrebările principale este ca un drum care nu duce la templu Chiar și în anii de institut, în timp ce studia fizica teoretică, autorul și-a pus întrebarea despre sensul vieții ca fenomen natural Viața, așa cum se știe, nu contrazice fizica [Schrödinger, ] Dar acesta din urmă nu se angajează să explice mecanismele de complicare a materiei, nu explică de ce și cum evoluează mintea Această problemă este rezolvată de o altă știință, învățarea automată, folosind conceptele de informație și algoritmi pentru prelucrarea ei și abstracția din substratul fizic al mecanismelor care implementează acești algoritmi Această știință, datorită circumstanțelor predominante, se află astăzi în epicentrul unei noi revoluții științifice, revendicând statutul de știință principală a secolului XXI Aici ar trebui să apară în curând noile Newton și Einstein ai științei inteligenței umane și a mașinilor, precum și von Neumann, care determină arhitectura sa viitoare Iar dacă alegi o ocupație pentru care nu te deranjează să-ți dedici viața, are sens să o cauți pe o astfel de cale, care deschide cele mai mari oportunități de autorealizare Cel puțin cea mai bună formulare a sensului vieții cunoscută de autor îl leagă de realizarea maximă a abilităților sale naturale Care, de altfel, oferă maxima plăcere totală din viață, pentru că Dopamina este eliberată tocmai în momentele descoperirilor subiective (și cu cât sunt mai multe, cu atât sunt mai semnificative) Această formulare este valabilă atât pentru mintea individuală, cât și pentru Mintea cu M majuscule, din care facem cu toții parte și pe care o dezvoltăm împreună Ce ar putea fi mai bun decât corespondența maximă a drumului personal și comun pentru toată natura, oportunitatea de a deveni nu doar un martor, ci unul dintre creatorii minții viitoare? "Și aceasta să fie cea mai bună creație a ta!" Bibliografie Aharon, M şi colab ( ) "rmk-SVD: Un algoritm pentru proiectarea dicționarelor supracomplete pentru reprezentare rară" În: IEEE Transactions on signal processing , pp - Aharonov, R și N Slonim ( ) "Urmăriți dezbaterea despre sistemul AI al IBM, un campion uman în direct la Think " În: blogul IBM Re-search URL: https://www ibm com/blogs/research/ / /ai-debate-think- / Amodei, D et al ( ) "Discurs profund : recunoașterea vocală de la capăt la capăt în engleză și mandarin" În: International Conference on Machine Learning, pp - Arandjelovic, R și A Zisserman ( ) "Uită-te, ascultă și învață" În: arXiv preprint arXiv: Ariovskv, M şi colab ( ) "Wasserstein gan" În: arXiv preprint arXiv: Ashby, F şi colab ( ) "FROST: un model neurocomputațional distribuit de întreținere a memoriei de lucru" În: Journal of cognitive neuroscience , pp - Baars, B şi colab ( ) "Dinamica globală a spațiului de lucru: "legarea și propagarea" corticală permite conținuturi conștiente" În: Frontiere în psihologie , p Bach, J ( ) "Teoria conductorului cortical: către abordarea conștiinței în modelele AI " În: Întâlnirea de arhitecturi cognitive inspirate biologic Springer, pp - BIBLIOGRAFIE Bahdanau, D şi colab ( ) "Traducerea automată neuronală prin învățarea unitară a alinierii și a traducerii" În: arXiv preprint arXiv: TsO O Barrett, L ( ) Cum se fac emoțiile: viața secretă a creierului Houghton Mifflin Harcourt Barrett, L și W Simmons ( ) "Predicții interoceptive în creier" În: Nature Reviews Neuroscience , p Bastos, A şi colab ( ) "Microcircuite canonice pentru codare predictivă" În: Neuron , pp - Battaglia, F şi colab ( ) "Hipocampul: centrul de comunicare în rețeaua creierului pentru memorie" În: Tendințe în științe cognitive , pp - Bednar, J și S Wilson ( ) Hărți corticale În: The Neuroscientist , pp - Beinhocker, E ( ) Originea bogăției: evoluția, complexitatea și refacerea radicală a economiei Harvard Business Press Beli, T şi colab ( ) compresia textului Voi Prentice Hali Englewood Cliffs Bengio, Y ( ) "Învățare profundă a reprezentărilor: Privind înainte" În: Conferința internațională privind limbajul statistic și procesarea vorbirii Springer, pp - Bengio, Y şi colab ( ) "Învățare arhitecturi profunde pentru AI" În: Fundamente și tendințe în învățarea automată , pp - Bengio, Y , I Goodfellow, et al ( ) Invatare profunda În: Nature , pp - Bengio, Y , P Lamblin, et al ( ) "Instruire lacomă la nivel de rețele profunde" În: Advances in neuronal information processing systems, pp - Bennett, C H ( ) "Termodinamica calculului - o revizuire " În: Internațional Journal of Theoretical Physics , pp - Berthelot, D şi colab ( ) "Început: rețele adversare generative de echilibru de frontieră" În: arXiv preprint arXiv: BIBLIOGRAFIE Bishop, S M ( ) recunoașterea modelelor și învățarea automată Springer Blei, D M et al ( ) "Alocarea dirichlet latentă" În: Journal of machine learning research ian, pp - Botvinick, M M ( ) "Învățare prin consolidare ierarhică și luare a deciziilor" În: Opinie curentă în neurobiologie , pp - Boucsein, C şi colab ( ) "Dincolo de coloana corticală: dansul abundent și fiziologia conexiunilor orizontale implică un rol puternic pentru intrările din mediul înconjurător" În: Frontiere în neuroștiință , p Bray, AJ și D S Dean ( ) "Statistica punctelor critice ale câmpurilor gaussiene pe spații mari-dimensionale" În: Physical review letters , p Brown, P F şi colab ( ) "Modele n-grame bazate pe clasă ale limbajului natural" În: Computational linguistics , pp - Bughin, J şi colab ( ) "Inteligenta artificiala - urmatoarea frontiera digitala" În: McKinsey Global Institute URL: https://www mckinsey % de/files/ O O°/ C studie o C ai % pdf Bughin, J şi colab ( ) "Note de la frontiera AI: modelarea impactului AI asupra economiei mondiale" În: McKinsey Global Institute Buzsaki, G ( ) Ritmurile creierului Presa Universitatii Oxford Buzsaki, G și E M Moser ( ) "Memoria, navigația și ritmul theta în sistemul hipocampal-entorinal " În: Nature neuroscience , p Carlin, B P și T A Louis ( ) Bayes și metode empirice Bayes pentru analiza datelor Chapman și Hall/CRC Chiu, C C et al ( ) "Recunoașterea vorbirii de ultimă generație cu modele secvență-la-secvență" În: IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) IEEE, pp - BIBLIOGRAFIE Chomsky, N ( ) Cunoașterea limbii: natura, originea și utilizarea sa Greenwood Publishing Group - ( ) Programul minimalist presa MIT Cireșan, D , A Giusti, et al ( ) "Rețelele neuronale profunde segmentează membranele neuronale în imagini de microscopie electronică" În: Advances in neuronal information processing systems, pp - - ( ) "Detecția mitozei în imaginile histologice ale cancerului de sân cu rețele neuronale profunde" În: Internațional Conference on Medical Image Computing and Computer- Assisted Intervention Springer, pp - Cireșan, D , U Meier, et al ( ) "Rețea neuronală profundă cu mai multe coloane pentru clasificarea semnelor de trafic " În: Neural Networks , pp - Clark, A ( ) Incertitudinea navigației: predicție, acțiune și mintea întruchipată Presa Universitatii Oxford Cole, M W şi colab ( ) "Conectivitatea multi-task dezvăluie hub-uri flexibile pentru controlul adaptiv al sarcinilor " În: Nature neuroscience , p Collobert, R şi colab ( ) "Procesarea limbajului natural (aproape) de la zero" În: Journal of machine learning research Aug, pp - Conneau, A şi colab ( ) "Traducerea cuvântului fără date paralele" În: arXiv preprint arXiv: f Crooks, G E ( ) "Teorema fluctuației producției de entropie și relația de lucru de neechilibru pentru diferențele de energie liberă" În: Physical Review E , p D'Angelo, E ( ) "Circuite neuronale ale cerebelului: ipoteză pentru funcție" În: Journal of integrative neuroscience , pp - D'Angelo, E și C A M Wheeler-Kingshott ( ) "Modelarea creierului: componentă elementară pentru a explica funcțiile ansamblului" În: Riv del nuovo Cim , pp - Deacon, T W ( ) Specia simbolică: co-evoluția limbajului și a creierului W W Norton & Company BIBLIOGRAFIE Dean, J şi colab ( ) "Rețele profunde distribuite la scară largă" În: Advances in neuronal information processing systems, pp - Dean, P şi colab ( ) "Microcircuitul cerebelos ca filtru adaptiv: dovezi experimentale și computaționale" În: Nature Reviews Neuroscience , p treizeci Dean, T ( ) "Un model computațional al cortexului cerebral" În: Proceedings of the National Conference on Artificial Intelligence Voi Menlo Park, CA; Cambridge, MA; Londra; AAAI Press; MIT Press; , p Dehaene, S ( ) Conștiința și creierul: descifrarea modului în care creierul ne codifică gândurile Pinguin Dehaene, S şi colab ( ) "Ce este conștiința și ar putea mașinile să o aibă?" În: Science , pp - Deisenroth, MP și colab ( ) "Un sondaj privind căutarea politicilor pentru robotică" În: Fundamente și tendințe în robotică - , pp - Derdikman, D şi colab ( ) "Imagistica dinamicii spațio-temporale a inhibării înconjurătoare în cortexul somatosenzorial de butoaie" În: Journal of Neuroscience , pp - Desjardins, J ( ) "Cele forțe majore care modelează viitorul economiei globale " În: URL: https://worldview stratfor com/article/ -major-forces-shaping-future-global-economy Dosovitskiy, A și V Koltun ( ) "Învățați să acționați predicând viitorul" În: arXiv preprint arXiv: Douglas, R J și K AC Martin ( ) "Circuite neuronale recurente în neocortex" În: Current biology , R -R Doya, K ( ) "Rolurile complementare ale ganglionilor bazali și cerebelului în învățare și control motor " În: Opinia curentă în neurobiologie , pp - Dunbar, R ( ) "Mărimea neocortexului ca o constrângere a mărimii grupului la primate" În: Journal of human evolution , pp - BIBLIOGRAFIE Eagleman, D ( ) Incognito: Viețile secrete ale creierului Orașul New York: Pantheon Eliasmith, C şi colab ( ) "Un model la scară mare al creierului funcțional" În: știință , pp - Everett, D ( ) Cum a început limbajul: povestea celei mai mari invenții a umanității Cărți de profil Faisal, A şi colab ( ) "Complexitatea manipulativă a fabricării de unelte din piatră din Paleoliticul inferior " În: PloS one , el Fan, B şi colab ( ) "Cap vorbitor foto-real cu LSTM bidirecțional profund" În: Acoustics, Speech and Signal Processing (ICASSP), IEEE International Conference on IEEE, pp - Faruqui, M şi colab ( ) "Reprezentări rare cu vectori de cuvinte supracomplete " În: arXiv preprint arXiv: - Frank M Jand Badre, D ( ) "Mecanisme de învățare de întărire ierarhică în circuitele corticostriatale : analiza computațională" În: Cortexul cerebral , pp - Frank, M şi colab ( ) "Interacțiuni între cortexul frontal și ganglionii bazali în memoria de lucru: un model computațional" În: Cognitive, Affective, & Behavioral Neuroscience pp - Franklin, S şi colab ( ) "LIDA: O arhitectură la nivel de sisteme pentru cunoaștere, emoție și învățare" În: IEEE Transactions on Autonomous Mental Development , pp - Friston, K ( ) "O teorie a răspunsurilor corticale" În: Philosophical transactions of the Royal Society B: Biologicul sci-ences , pp - Friston, K şi colab ( ) "Inferență activă și valoare epistemică" În: Cognitive Neuroscience , pp - Fukushima, K ( ) "Model de rețea neuronală pentru un mecanism de recunoaștere a modelelor neafectat de schimbarea poziției-Neocognitron " În: Electron &Comun Japonia , pp - Fuster, JM ( ) Cortexul și mintea: unificarea cunoașterii Presa Universitatii Oxford BIBLIOGRAFIE Garipov, T şi colab ( ) "Tensorizare finală: comprimarea straturilor convoluționale și fc deopotrivă " În: arXiv preprint arXiv: f Gatys, L A şi colab ( ) "Un algoritm neural al stilului artistic" În: arXiv preprint arXiv: Gavrilets, S și A Vose ( ) "Dinamica inteligenței machiaveliane" În: Proceedings of the National Academy of Sciences , pp - Gehring, J şi colab ( ) "Învățare secvență convoluțională în secvență" În: arXiv preprint arXiv: George, D și J Hawkins ( ) "Către o teorie matematică a microcircuitelor corticale" În: PLoS computațional biology , el Ghuman, AS şi colab ( ) "Codificarea dinamică a informațiilor feței în girusul fusiform uman" În: Nature communications , p Goodfellow, I et al ( ) "Rețele adversare generative" În: Advances in neuronal information processing systems, pp - Graves, A ( ) "Generarea de secvențe cu rețele neuronale recurente" În: arXiv preprint arXiv: Graves, A , S Fernandez, et al ( ) "Clasificare temporală conecționistă: etichetarea datelor secvențe nesegmentate cu rețele neuronale recurente" În: Proceedings of the rd international Conference on Machine Learning ACM, pp - Graves, A , A Mohamed, et al ( ) "Recunoașterea vorbirii cu rețele neuronale recurente profunde" În: Acoustics, speech and signal processing (icassp), ieee international conference on IEEE, pp - Gurney, K şi colab ( ) "Un model computațional de selecție a acțiunii în ganglionii bazali I O nouă anatomie funcțională" În: Biologicul cibernetică , pp - Hagmann, P şi colab ( ) "Cartografiarea nucleului structural al cortexului cerebral uman" În: PLoS biology , el BIBLIOGRAFIE Han, S , H Mao, şi colab ( ) "Compresie profundă: comprimarea rețelelor neuronale profunde cu tăiere, cuantizare antrenată și codare huffman" În: arXiv preprint arXiv: Han, S , J Pool, şi colab ( ) "Învățarea atât a greutăților, cât și a conexiunilor pentru o rețea neuronală eficientă" În: Advances in neuronal information processing systems, pp - Hauser, M D et al ( ) "Facultatea limbajului: ce este, cine o are și cum a evoluat?" În: știință , pp - Hawkins, J și S Ahmad ( ) "De ce neuronii au mii de sinapse, o teorie a memoriei secvenței în neocortex" În: Frontiere în circuitele neuronale , p Hawkins, J , S Ahmad și Y Cui ( ) "O teorie a modului în care coloanele din neocortex permit învățarea structurii lumii " În: Frontiere în circuitele neuronale , p Hawkins, J , D George, et al ( ) "Memoria secvenței pentru predicție, inferență și comportament" În: Philosophical Transactions of the Royal Society B: Biologicul Sciences , pp - Ne, K şi colab ( ) "Aprofundarea redresoarelor: depășirea performanței la nivel uman în clasificarea imagenet " În: Pro-ceedings of the IEEE International Conference on computer vision, pp - - ( ) "Învățare reziduală profundă pentru recunoașterea imaginilor" În: Proceedings of the IEEE Conference on computer vision and pattern recognition, pp - Hebb, D O ( ) Organizarea comportamentului: o teorie neuropsico-cologică Presa de psihologie Herculano-Houzel, S ( ) Avantajul uman: o nouă înțelegere a modului în care creierul nostru a devenit remarcabil MIT Press Hilbert, M și P Lopez ( ) "Capacitatea tehnologică a lumii de a stoca, comunica și calcula informații " În: Science (New York, NY) , pp - BIBLIOGRAFIE Hinton, G , S Osindero, et al ( ) "Un algoritm de învățare rapidă pentru rețele de credință profundă" În: Neural calcul , pp - Hinton, G , N Srivastava, A Krizhevsky, et al ( ) "Îmbunătățirea rețelelor neuronale prin prevenirea co-adaptarii detectorilor de caracteristici " În: arXiv preprint arXiv- Hinton, G , N Srivastava și K Swersky ( ) "RMSProp: Împărțiți gradientul la o medie curentă a mărimii sale recente " În: citat la Hochreiter, S , Ya Bengio, et al ( ) Fluxul de gradient în rețelele recurente: dificultatea de a învăța dependențe pe termen lung Hochreiter, S şi J Schmidhuber ( ) "Memorie pe termen lung" În: Neural calcul , pp - Hofmann, T ( ) "Învățare nesupravegheată prin analiză semantică latentă probabilistică" În: Machine learning , pp - Huang, FJ și colab ( ) "Învățare nesupravegheată a ierarhiilor de caracteristici invariante cu aplicații pentru recunoașterea obiectelor" În: Computer Vision and Pattern Recognition, CVPR' Conferința IEEE pe IEEE, pp - Huang, G , Z Liu, și colab ( ) "Rețele convoluționale dens conectate" În: arXiv preprint arXiv: Huang, G , Y Sun, și colab ( ) "Rețele profunde cu adâncime stocastică" În: European Conference on Computer Vision Springer, pp - Huth, A G și colab ( ) "Vorbirea naturală dezvăluie hărțile semantice care țin cortexul cerebral uman " În: Nature , pp - IFPMA ( ) Industria farmaceutică și sănătatea globală fapte și cifre URL: https://www ifpma org/wp-content/uploads/ / /IFPMA-Facts-And-Figures- pdf loffe, S și C Szegedy ( ) "Normalizarea loturilor: Accelerarea antrenamentului în rețea profundă prin reducerea covariatei interne BIBLIOGRAFIE schimb" În: International Conference on Machine Learning, pp - Ito, M și K Doya ( ) "Reprezentări multiple și algoritmi pentru învățarea prin întărire în circuitul ganglionilor cortico-bazali" În: Opinia curentă în neurobiologie , pp - Izhikevich, E M și G M Edelman ( ) "Model la scară mare al sistemelor talamocorticale de mamifere" În: Proceedings of the National Academy of Sciences , pp - Jackendoff, R ( ) Limbaj, conștiință, cultură: Eseuri despre structura mentală Voi MIT Press Jaderberg, M şi colab ( ) "Învățare prin consolidare cu sarcini auxiliare nesupravegheate" În: arXiv preprint arXiv: Jozefowicz, R şi colab ( ) "O explorare empirică a arhitecturilor de rețea recurente " În: Proceedings of the th International Conference on Machine Learning (ICML- ), pp - Jurafsky, D și J Martin ( ) Procesarea vorbirii și a limbajului Voi Pearson Londra Kahneman, D ( ) Gândire, rapid și încet Macmillan Kanerva, P ( ) "Calcul hiperdimensional: o introducere în calcul în reprezentare distribuită cu vectori aleatori de dimensiuni înalte " În: Cognitive Computation , pp - Kawato, M ( ) Cerebel: modele În: Enciclopedia neuroștiinței Keskar, N S şi colab ( ) "Despre antrenamentul în loturi mari pentru învățarea profundă: decalaj de generalizare și minime clare" În: arXiv preprint arXiv: Kesner, R P și E T Rolls ( ) "O teorie computațională a funcției hipocampului și teste ale teoriei: noi dezvoltări" În: Neuroscience & Biobehavioral Reviews , pp - Khamassi, M și M D Humphries ( ) "Integrarea arhitecturilor ganglionilor cortico-limbic-bazali pentru învățarea bazată pe modele BIBLIOGRAFIE și strategii de navigare fără modele" În: Frontiere în neuroștiința comportamentală , p Kingma, D și J Ba ( ) Adam: O metodă de optimizare stocastică În: arXiv preprint arXiv -lflS Klein, D și CD Manning ( ) "Inducția bazată pe corpus a structurii sintactice: modele de dependență și circumscripție" În: Proceedings of the a II Annual Meeting on Association for Computațional Linguistics Asociația pentru Lingvistică Computațională, p Kohonen, T ( ) "Formarea auto-organizată de hărți de caracteristici corecte din punct de vedere topologic" În: Biologicul cibernetică , pp - - ( ) Hărți autoorganizate Springer-Verlag New York Kong, A , M Frigge, et al ( ) "Selecție împotriva variantelor din genom asociate cu obținerea educațională" În: Proceedings of the National Academy of Sciences , E -E Koomey, J și S Naffziger ( ) "Legea lui Moore s-ar putea să încetinească, dar nu eficiența energetică " În: IEEE Spectrum Koonin, E ( ) Logica hazardului: natura și originea evoluției biologice Apăsați FT Koziol, L F şi colab ( ) "Structura și funcția sistemelor cerebrale la scară largă" În: Applied Neuropsychology: Child , pp - Koziol, L și D Budding ( ) Structuri subcorticale și cogniție: Implicații pentru evaluarea neuropsihologică Springer Science &: Business Media Koziol, L , D Budding, et al ( ) "Lucrare de consens: rolul cerebelului în mișcare și cogniție" În: Cerebelul , pp - Kremer, M ( ) "Creșterea populației și schimbarea tehnologică: Un milion î Hr până în " În: The Quarterly Journal of Economics , pp - BIBLIOGRAFIE Krizhevsky, A și colab ( ) "Clasificarea Imagenet cu rețele neuronale convoluționale profunde" În: Advances in neuronal information processing systems, pp - Laird, JE şi colab ( ) "Un model standard al minții: spre un cadru de calcul comun pentru inteligența artificială, știința cognitivă, neuroștiința și robotica " În: AI Magazine Lamp, G şi colab ( ) "Traducere automată nesupravegheată folosind numai corpuri monolingve" În: arXiv preprint arXiv l Lane, N ( ) Viața ascendentă: cele zece mari invenții ale evoluției cărți de profil - ( ) Întrebarea vitală: energia, evoluția și originile vieții complexe W W Norton & Company Lange, S și M Riedmiller ( ) "Rețele neuronale cu codificare automată profundă în învățarea prin consolidare " În: Neural Networks (IJCNN), The International Joint Conference on IEEE, pp - Laukien, E şi colab ( ) "Mașină Feynman: Computerul cu sisteme dinamice universale" În: arXiv preprint arXiv: Le, QV ( ) "Crearea de funcții de nivel înalt folosind învățarea nesupravegheată la scară largă" În: Acoustics, Speech and Signal Processing (ICASSP), IEEE International Conference on IEEE, pp - LeCun, Y , Y Bengio, et al ( ) Invatare profunda În: Nature , pp - LeCun, Y , B Boser, et al ( ) "Propagarea inversă aplicată recunoașterii codului poștal scris de mână" În: Neural calcul , pp - LeCun, Y , L Bottou, et al ( ) Învățare bazată pe gradient aplicată recunoașterii documentelor În: Proceedings of the IEEE , pp - Lee, K -F ( ) Superputeri AI: China, Silicon Valley și Noua Ordine Mondială Houghton Mifflin Lei, T et al ( ) "Unități recurente simple pentru recurență extrem de paralelizabilă" În: Proceedings of the Conference on BIBLIOGRAFIE Empiricul Methods in Natural Language Processing, pp - Lein, ES şi colab ( ) "Atlasul la nivelul genomului al expresiei genelor în creierul șoarecilor adulți" În: Nature , p Lennie, P ( ) "Costul calculului cortical" În: Current biology , pp - Levy, O și Y Goldberg ( ) "Încorporarea cuvântului neuronal ca factorizare matriceală implicită" În: Advances in neuronal information processing systems, pp - Lillicrap, T P şi colab ( ) "Control continuu cu învățare de întărire profundă" În: arXiv preprint arXiv: Manyika, J şi colab ( ) Puzzle-ul productivității: o privire mai atentă asupra Statelor Unite Institutul Global McKinsey March, JG ( ) "Explorarea și exploatarea în învățarea organizațională" În: Știința organizațiilor , pp - Markram, H şi colab ( ) "Reconstrucția și simularea microcircuitului neocortical" În: Celula , pp - Mateos, D şi colab ( ) "Conștiința ca proprietate globală a activității dinamice a creierului" În: Physical Review E , p Mikolov, T şi colab ( ) "Estimarea eficientă a reprezentărilor de cuvinte în spațiul vectorial" În: arXiv preprint arXiv: Mitchell, M ( ) Introducere în algoritmi genetici Mnih, V , A Badia, et al ( ) "Metode asincrone pentru învățare prin consolidare profundă" În: International Conference on Machine Learning, pp - Mnih, V , K Kavukcuoglu, şi colab ( ) "Jucând atari cu învățare de întărire profundă" În: arXiv preprint arXiv: - ( ) "Control la nivel uman prin învățare prin consolidare profundă" În: Nature , p Molchanov, D şi colab ( ) "Abandonul variațional sparsifică rețelele neuronale profunde " În: arXiv preprint arXiv: Moser, EI şi colab ( ) "Plasați celulele, celulele grilă și sistemul de reprezentare spațială a creierului" În: Revizuirea anuală a neuroștiinței BIBLIOGRAFIE Mountcastle, V V ( ) "Introducere" În: Cortexul cerebral , pp - Muller, U şi colab ( ) "Evitarea obstacolelor în afara drumului prin învățare end-to-end" În: Advances in neuronal information processing systems, pp - Naik, V ( ) distribuția calculului URL: https:// intelligence org/wp-content/uploads/ / /Naik-Distribution-of-Computation pdf Nair, V și G Hinton ( ) "Unitățile liniare rectificate îmbunătățesc mașinile Boltzmann restricționate" În: Proceedings of the th international Conference on machine learning (ICML- ), pp - Nevill-Manning, C și I Witten ( ) "Identificarea structurii ierarhice în secvențe: un algoritm în timp liniar " În: Journal of Artificial Intelligence Research , pp - Nguyen, A şi colab ( ) "Rețele generative Plug & Play: generarea condițională iterativă de imagini în spațiu latent" În: arXiv preprint arXiv: Novikov, A şi colab ( ) "Tensorizarea rețelelor neuronale" În: Advances in neuronal information processing systems, pp - O'Reilly, R și M Frank ( ) "Fă ca memoria de lucru să funcționeze: un model computațional de învățare în cortexul prefrontal și ganglionii bazali" În: Neural calcul , pp - O'Reilly, R , D Wyatte, şi colab ( ) "Învățare prin timp în ansele talamocorticale" În: arXiv preprint arXiv: J Oja, E ( ) "Model de neuron simplificat ca analizor de componente principale" În: Journal of mathematical biology , pp - Oja, E şi J Karhunen ( ) "Separarea semnalului prin învățarea Hebbian non-ear" În: Computational intelligence: A dynamic system perspective Citeseer, pp - Oseledets, I ( ) "Descompunerea trenului tensor" În: SI AM Journal on Scientific Computing , pp - BIBLIOGRAFIE Palm, G ( ) "Amintiri asociative neuronale și codificare rară" În: Neural Networks , pp - Panetta, K ( ) Trends Emerge in the Gartner Hype Cycle for Emerging Technologies, https: / / www gartner cell/ smart erwithgartner / - trends - emerge - in - gartner -hype-cycle-for-emerging-technologies- / Pearl, J și D Mackenzie ( ) Cartea de ce: noua știință a cauzei și efectului Cărți de bază Peiser, J ( februarie ) "Ascensiunea reporterului robot" În: The New York Times Pennington, J şi colab ( ) Mănușă: vectori globali pentru reprezentarea cuvintelor În: Proceedings of the Conference on empiric methods in natural language processing (EMNLP), pp - Perunov, N şi colab ( ) "Fizica statistică a adaptării" În: Physical Review X , p Pinker, S ( ) Instinctul limbajului: modul în care mintea creează limbajul Pinguin Marea Britanie Poultney, C şi colab ( ) "Învățare eficientă a reprezentărilor rare cu un model bazat pe energie" În: Advances in neuronal information processing systems, pp - Power, J , A Cohen, et al ( ) "Organizarea funcțională a rețelei a creierului uman" În: Neuron , pp - Press, G (sept ) "Peisajul înfloritor al IA în Israel și ce înseamnă acesta pentru competiția globală de IA " În: Forbes https://www forbes com/sites/gilpress/ / / / the-thriving-ai-landscape-in-israel-and-what-it-means-for-global-ai-competition Pulvermiiller, F ( ) "Cum neuronii au sens: mecanisme ale creierului pentru semantica întruchipată și abstract-simbolică " În: Tendințe în științe cognitive , pp - Radford, A , L Metz, şi colab ( ) "Învățare nesupravegheată a reprezentării cu rețele adverse generative convoluționale profunde" În: arXiv preprint arXiv: - BIBLIOGRAFIE Radford, A , J Wu, şi colab ( ) "Modelele lingvistice sunt cursanți multitask nesupravegheați " În: OpenAI Blog , p Raghu, M şi colab ( ) "Despre puterea expresivă a rețelelor neuronale profunde" În: arXiv preprint arXiv: Ramstead, M şi colab ( ) Integrare pe mai multe scari: dincolo de internalism și externalism Reed, S şi colab ( ) "Sinteza generativă a textului adversar la imagine" În: arXiv preprint arXiv: Reiner, A şi colab ( ) "Evoluția structurală și funcțională a ganglionilor bazali la vertebrate" În: Brain Research Reviews , pp - Reynolds, J și R O'Reilly ( ) "Dezvoltarea reprezentărilor PFC utilizând învățarea prin întărire" În: Cognition , pp - Ribary, U ( ) "Dinamica oscilațiilor rețelei talamo-corticale și percepția umană" În: Progress in brain research , pp - Rinkus, G ( ) "Un model de codare distribuită cortical rar care leagă funcționalitatea la scară mini și macrocoloană " În: Frontiere în neuroanatomy , p Rissanen, J ( ) "Modelarea după cea mai scurtă descriere a datelor" În: Automatica , pp - Rolls, E T ( ) "O teorie computațională a formării memoriei episodice în hipocamp" În: Behavioral brain research , pp - Rosenblatt, F ( ) "Perceptronul: un model probabilistic pentru stocarea și organizarea informațiilor în creier " În: Revista psihologică , p Russo, D şi colab ( ) "Un tutorial despre eșantionarea Thompson" În: Foundations and Trends(r) in Machine Learning , pp - Sabour, S şi colab ( ) "Dirijare dinamică între capsule" În: Advances in Neural Information Processing Systems, pp - BIBLIOGRAFIE Saffran, JR și colab ( ) "Însuşirea limbajului de către copii" În: Proceedings of the National Academy of Sciences , pp - Salakhutdinov, R și colab ( ) "Mașini Boltzmann cu restricții pentru filtrare în colaborare" În: Proceedings of the nd international Conference on Machine Learning ACM, pp - Saletin, J și M Walker ( ) "Mnemonică nocturnă: procesarea somnului și a memoriei hipocampului" În: Frontiere în neurologie , p Salton, G şi colab ( ) "Un model de spațiu vectorial pentru indexarea automată" În: Comunicări ale ACM , pp - Santoro, A şi colab ( ) "Un modul simplu de rețea neuronală pentru raționamentul relațional" În: arXiv preprint arXiv: Schlaffke, L şi colab ( ) "Modificări dinamice ale conectivității stării de repaus legate de dobândirea unei abilități lexico-semantice " În: Neurolmage , pp - Schmidhuber, J ( ) "Învățare profundă în rețelele neuronale: o privire de ansamblu" În: Rețele neuronale , pp - Shazeer, N şi colab ( ) "Rețele neuronale revoltător de mari: stratul de amestec de experți cu limitare redusă", În: arXiv preprint arXiv: Shen, J şi colab ( ) "Sinteza tts naturală prin condiționarea wavenetului pe predicțiile spectrogramei mei" În: IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) IEEE, pp - Shen, X şi colab ( ) "Estimarea decalajului dintre modelele lingvistice actuale și performanța umană " În: INTERSPEECH, pp - Shipp, S şi colab ( ) "Reflecții asupra arhitecturii agranulare: codificare predictivă în cortexul motor" În: Trends in neurosciences , pp - Shoham, Y şi colab ( ) Raportul anual AI Index Universitatea Stanford BIBLIOGRAFIE Silvei, D , A Huang, et al ( ) "Stăpânirea jocului Go cu rețele neuronale profunde și căutare în arbore" În: Nature , pp - Silvei, D , T Hubert, et al ( ) "Stăpânirea șahului și a shogiului prin joc propriu cu un algoritm general de învățare de întărire " În: arXiv preprint arXiv: Simonyan, K și A Zisserman ( ) "Rețele convoluționale foarte profunde pentru recunoașterea imaginilor la scară largă" În: arXiv preprint arXiv: Solari, S și R Stoner ( ) "Consiliența cognitivă: circuitele neuroanatomice non-primare ale primatelor care stau la baza cogniției" În: Frontiere în neuroanatomy , p Soltau, H și colab ( ) "Recunoaștere a vorbirii neurale: model LSTM acustic-la-cuvânt pentru recunoașterea vorbirii unui vocabular mare" B: arXiv preprint arXiv: Sonoda, S și N Murata ( ) "Analiza de transport a rețelei neuronale infinit de adâncime" În: Journal of Machine Learning Research , pp - Spaak, E şi colab ( ) "Antrenarea specifică stratului a activității neurale a benzii gamma de către ritmul alfa în cortexul vizual al maimuței " În: Current Biology , pp - Spratling, M W ( ) "O revizuire a algoritmilor de codare predictivă" În: Brain and cognition , pp - Sprechmann, P și G Sapiro ( ) "Învățare dicționar și codificare rară pentru gruparea nesupravegheată" În: Acoustics Speech and Signal Processing (ICASSP), IEEE International Conference on IEEE, pp - Srivastava, N şi colab ( ) "Abandonul: o modalitate simplă de a preveni supraadaptarea rețelelor neuronale " În: Journal of machine learning research , pp - Stachenfeld, K şi colab ( ) "Hipocampul ca hartă predictivă" În: Nature neuroscience , p STATISTA ( ) Numărul de aplicații disponibile în magazinele de aplicații de top din trimestrul III URL: https : / / www statistica BIBLIOGRAFIE honeycomb/statistics/ /number - of - apps - available -in-leading-app-stores/ Steeg, G ( ) "Învățare nesupravegheată prin explicația corelației totale" În: arXiv preprint arXiv: - Steeg, G și A Galstyan ( ) "Modele cu factori latenți gaussian de complexitate redusă și o binecuvântare a dimensionalității " În: arXiv preprint arXiv: Stolcke, A și S Omohundro ( ) "Inducerea gramaticilor probabilistice prin fuziunea modelului bayesian" În: Colocviul Internațional despre Inferența Gramaticală Springer, pp - Sun, X şi colab ( ) "Simplificarea antrenamentului și simplificarea modelelor pentru învățarea profundă: o metodă de propagare înapoi cu efort minim " În: IEEE Transactions on Knowledge and Data Engineering Sutskever, I și G Hinton ( ) "Învățarea reprezentărilor distribuite pe mai multe niveluri pentru secvențe de dimensiuni înalte" În: Artificial Intelligence and Statistics, pp - Sutskever, I , J Martens, et al ( ) "Despre importanța inițializării și a impulsului în învățarea profundă" În: Conferința internațională privind învățarea automată, pp - Sutskever, I , O Vinyals, et al ( ) "Învățare secvență la secvență cu rețele neuronale" În: Advances in neuronal information processing systems, pp - Sutton, R ( ) "Dyna, o arhitectură integrată pentru învățare, planificare și reacție " În: Buletinul ACM SIGART , pp - Todorov, E ( ) "Paralele între procesarea informațiilor senzoriale și motorii" În: Neuroștiințe cognitive, pp - Tomasello, M ( ) construirea unui limbaj Presa universitară din orașul Harvard Tononi, G și C Koch ( ) "Conștiința: aici, acolo și peste tot?" În: Phil Trans R Soc La , p BIBLIOGRAFIE Ueda, N şi R Nakano ( ) "Algoritmul EM de recoacere deterministă" În: Rețele neuronale , pp - Uusisaari, M și E De Schutter ( ) "Misteriosul microcircuit al nudelor cerebeloase" În: Jurnalul de fiziologie , pp - Vanlehn, K și W Ball ( ) "O abordare în spațiul de versiuni pentru a învăța gramatici fără context " În: Machine learning , pp - Vapnik, V ( ) Teoria învăţării statistice Voi Wiley New York Vaswani, A şi colab ( ) "Atenția este tot ce ai nevoie" În: Advances in Neural Information Processing Systems, pp - Verschure, P ( ) "Controlul adaptativ distribuit: o teorie a legăturii minții, creierului și corpului" În: Arhitecturi cognitive inspirate biologic , pp - Verschure, P şi colab ( ) "De ce, ce, unde, când și cum ale alegerii direcționate către un scop: principii neuronale și computaționale" În: Philosophical Transactions of the Royal Society B: Biologicul Sciences , p Vinyals, O şi colab ( ) AlphaStar: Stăpânirea jocului de strategie în timp real StarCraft II URL: https://deepmind corn/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/ Vinyals, O şi colab ( ) "Show and teii: A neuronal image cap-tion generator " În: Proceedings of the IEEE Conference on computer vision and pattern recognition, pp - Volokh, A și G Neumann ( ) "Metodologie de evaluare a analizei dependenței orientată către sarcini" În: IEEE th International Conference on Information Reuse & Integration (IRI) IEEE, pp - Von der Malsburg, C ( ) "Legarea în modele de percepție și funcție a creierului" În: Opinia curentă în neurobiologie , pp - BIBLIOGRAFIE Von Foerster, H şi colab ( ) Apocalipsa: vineri, noiembrie, În: Science , pp - Von Neumann, J , A Burks, şi colab ( ) "Teoria automatelor care se reproduc singur" În: IEEE Transactions on Neural Networks , pp - Wang, J -P et al ( ) "O cale pentru a permite scalarea exponențială pentru era de dincolo de CMOS" În: Proceedings of the th Annual Design Automation Conference ACM, p Wang, R şi colab ( ) "MAGAN: Adaptarea marjei pentru rețele generative adversare" În: arXivpreprint arXiv: f Wang, X și A Gupta ( ) "Modelarea generativă a imaginii folosind stilul și structura rețelelor adverse" În: European Conference on Computer Vision Springer, pp - Wang, Y şi colab ( ) "Rețele CTC convoluționale reziduale pentru recunoașterea automată a vorbirii" În: arXiv preprint arXiv: Ward, L ( ) "Teoria nucleului dinamic talamic a experienței conștiente" În: Conștiință și cunoaștere , pp - Watkins, C și P Dayan ( ) Q-learning În: Machine learning - , pp - Watters, N şi colab ( ) "Rețele de interacțiune vizuală" În: arXiv preprint arXiv: J Welch, T ( ) "Tehnica de comprimare a datelor de înaltă performanță" În: Computer , pp - Wilson, AC şi colab ( ) "Valoarea marginală a metodelor de gradient adaptiv în învățarea automată " În: arXiv preprint arXiv: Wilson, E ( ) Cucerirea socială a pământului W W Norton & Company Wolff, J ( ) "Un algoritm pentru segmentarea unui analog de limbaj artificial" În: Jurnalul britanic de psihologie , pp - - ( ) Achiziția limbajului, compresia și generalizarea datelor Pergamon BIBLIOGRAFIE Wolff, J ( ) "Învățarea sintaxei și a semnificațiilor prin optimizare și analiză distribuțională" În: Categorii și procese în însuşirea limbii Wrangham, R ( ) Aprinderea: Cum gătitul ne-a făcut oameni Cărți de bază Wu, Y , M Schuster, şi colab ( ) "Sistemul de traducere automată neuronală de la Google: eliminarea decalajului dintre traducerea umană și cea automată" În: arXiv preprint arXiv: - Wu, Y , G Wayne, şi colab (apr ) "Mașina Kanerva: O memorie distribuită generativă" În: ArXiv e-prints arXiv: [stat ML] Xu, K şi colab ( ) "Show, attend and teii: Generarea de cap-tioane de imagini neuronale cu atenție vizuală" În: International Conference on Machine Learning, pp - Young, T şi colab ( ) "Tendințe recente în procesarea limbajului natural bazat pe învățarea profundă" În: ieee Computațional intelli-genCe revista , pp - Yu, H şi colab ( ) Rezumat articol de știri cu rețele neuronale recurente profunde bazate pe atenție Yufik, Y și K Friston ( ) "Viața și înțelegerea: originile "înțelegerii" în sistemele nervoase auto-organizate " În: Frontiere in systems neuroscience , p Zeiler, M și R Fergus ( ) "Vizualizarea și înțelegerea rețelelor convoluționale" În: Conferința europeană privind viziunea computerizată Springer, pp - Zhang, H şi colab ( ) "Stackgan: Text în sinteză de imagini foto-realiste cu rețele adverse generative stivuite" În: arXiv preprint arXiv: Zhang, Y şi colab ( ) "Spre recunoașterea vocală end-to-end cu rețele neuronale convoluționale profunde" În: arXiv preprint arXiv: Zhu, J -Y et al ( ) "Traducere neîmperecheată imagine-la-imagine utilizând rețele adverse consecvente ciclului" În: arXiv preprint arXiv: BIBLIOGRAFIE Agamirzyan, I R ( ) "Liderarea tehnologică: asumarea șansei" În: Challenge Olymp-Business, p - Alizar, A ( ) Rețeaua neuronală Yandex a devenit co-autor al unei piese pentru violă și orchestră Adresa URL: https://habr com/ru/post/ / Anderson, K ( ) O coada lunga Un model de afaceri online eficient MIT Anokhin, K V ( ) "Cognitul: în căutarea unei teorii generale a științei cognitive" În: A șasea Conferință Internațională privind Știința Cognitivă: Proc raport Kaliningrad, cu - - ( a) Cognite este un model hipernet al creierului Adresa URL: https://youtu ye/tDalzRYEhss - ( b) Creierul ca rețea și mintea ca rețea sunt provocări pentru matematică URL: https://youtu be/tDalzRYEhss Barrett, L ( ) Cum se nasc emoțiile O revoluție în înțelegerea creierului și gestionarea emoțiilor Mann, Ivanov și Faber Baker, M ( ) Atomii limbajului: Gramatica în câmpul întunecat al conștiinței LCI ISBN: Burlak, S A ( ) Originea limbajului: Fapte, studii, ipoteze Editura Alpina Vernadsky, V I ( ) Lucrări despre istoria generală a științei Ripol Classic Vygotsky, L S ( ) Gândire și vorbire media directă Goodfellow, I și colab ( ) Invatare profunda litri Ezhov, A A si S A Shumsky ( ) Neurocomputing și aplicațiile sale în economie și afaceri MEPhI Zhuravlev, A Yu ( ) Crearea Pământului Cum organismele vii au creat lumea noastră Alpina Non-ficțiune Zavadovskaya, V și K Karpov ( ) Evaluarea companiilor în funcție de productivitatea angajaților, https://bcs-express ru/novosti-i-analitika/reiting-kompanii-po-proizvoditel-nosti-truda-sotrudnikov BIBLIOGRAFIE Kapitsa, S P ( ) Teoria generală a creșterii umane: câți oameni au trăit, trăiesc și vor trăi pe Pământ M : Știință Karelov, S V ( ) Înaintea AI-naționalismului și AI-naționalizării http : / / consiliul rus ru/activitate/ digest / longreads / vperedi - ii - natsionalizm - i - ii - natsionalizatsiya/ Kovalevici, D A și P G Shchedrovitsky ( ) Conducta de inovare https://asi ru/conveyor-of-innovations/ Korotaev, A V și altele ( ) Analiza și modelarea dinamicii globale Lenand Kuznetsov, E B ( ) Rusia și lumea dictatului tehnologic: scenarii viitoare URL: https://www youtube cell/watch ch?v= GtG kczrFE CULTURA TV ( ) Pentru prima dată, un tablou pictat prin inteligență artificială a fost vândut la licitația Christies URL: https: //tvkultura ro/article/show/article id/ / Kuhn, T ( ) Structura revoluțiilor științifice M : Progres Lakoff, D ( ) Femei, foc și lucruri periculoase Ce ne spun categoriile de limbaj despre gândire litri Lem, S ( ) Golem XIV Biblioteca secolului XXI AST Markov, A V ( ) Evoluția minții și rezistența la știință Adresa URL: https://www youtube com/watch?v=qTOyKOryWQY Markov, A V și M A Markov ( ) Selecția pe mai multe niveluri și problema creșterii creierului în Pleistocenul Noto Experiență în simularea pe computer a evoluției cuplate a genelor și a memelor URL: https://www youtube com/watch?v=AERQrIyk og&t= s Meadows, D H et al ( ) "Limite de creștere de ani mai târziu " ÎN: Nikitin, M A ( ) Originea vieții De la nebuloasă la celulă Alpina non-ficțiune Nikolenko, S și colab ( ) Invatare profunda Scufundați-vă în lumea rețelelor neuronale Petru ISBN: - - - - BIBLIOGRAFIE Nozhov, I M ( ) "Prelucrarea morfologică și sintactică a textului (modele și programe)" În: Kand, disertație Perez, K ( ) Revoluții tehnologice și capital financiar Caz SPIEF- ( ) Impactul ecosistemului IMM-urilor asupra economiei globale, https://tass ru/pmef- /articles/ Terekhov, S A ( ) "Descompunerea tensorilor în luarea deciziilor statistice" În: Colecția de lucrări științifice ale celei de-a XX-a conferințe științifice din întreaga Rusie Neuroinformatică- Prelegeri de neuroinformatică, p - Haikin, S ( ) Rețele neuronale: un curs complet, ediția a II-a Editura Williams Schrödinger, E ( ) Ce este viața ? litri Shumsky, S A ( ) "Limbajul și creierul: cum înțelege o persoană vorbirea" În: Colecția de lucrări științifice ale celei de-a XV-a conferințe științifice din întreaga Rusie Neuroinformatică- Prelegeri de neuroinformatică, p - - ( ) "Reproiectarea arhitecturii creierului: rolul și interacțiunea subsistemelor majore" În: Colecția de lucrări științifice ale celei de-a XVII-a conferințe științifice din întreaga Rusie Neuroinformatică- Prelegeri de neuroinformatică, p - - ( ) "Învățare structurală profundă: o nouă perspectivă asupra învățării prin consolidare" În: Colecția de lucrări științifice ale celei de-a XX-a conferințe științifice din întreaga Rusie Neuroinformatică- Prelegeri de neuroinformatică, p - Șchedrovitski, P G ( ) Istoria revoluțiilor industriale și provocările celei de-a III-a revoluții industriale, https: // youtu be/ cpWkGwZMSI Publicație științifică INTELIGENTA MASINILOR ESEURI PRIVIND TEORIA ÎNVĂŢĂRII MAŞINI ŞI INTELIGENTEI ARTIFICIALE Semnat pentru publicare la Format x / Căști Times Hartie offset Conv cuptor l Uch -ed l Tiraj de exemplare Comanda nr RIOR Publishing Center SRL , Moscova, st Polyarnaya, V Tel : ( ) - - E-mail: info@riorp ru https://riorpub com 